NLP2025, day 4
言語処理学会年次大会4日目。まだ明日もあるけどそろそろお疲れモード。オンライン参加なので籠もっている&ご飯普通に食べておやつも食べてるのだけど体重と体脂肪率は下降傾向に。これはあれですね、やつれてる。
今日は対話、LLM構築、招待講演に参加。うちの学生(船迫さん)も質問コメントどしどし貰えてて良かった!
-
D8-1: 話者特性に基づくターンテイキング速度の分析
- 話者間の役割/関係性/個人特性の違いが、ターンが取られるタイミング(というより速度か)に影響しているのではという検証結果。因果関係は不明だけど、そういう風に認知されやすいというのはあるのかな。
-
D8-2: 性格特性による感情誘導の効果検証
- 船迫さん発表。先行研究著者?が聞きに来てくれていたっぽくて、コメント貰えてました。ありがたや〜。
-
D8-4: 大規模言語モデルを用いた対話品質評価に関する調査
- LLMにリッカート尺度法で直接回答させると若干怪しい(大きい数字は良い状態というバイアスがありそう)が、根拠を説明させると割と正しそうという結論。
-
D8-6: 日本語Full-duplex音声対話システムの試作
- 日本語full-duplex。(内容は置いといて)すごく自然にリアルタイムな応答していてすごい。QAでデータセットに基づいた学習結果ということが難度も出てきていたのが面白い。
-
D9-1: Japanese MT-bench++: より自然なマルチターン対話設定の日本語大規模ベンチマーク
- MT-benchはマルチターンの対話的タスク遂行能力を評価するベンチマークなんだけど、「2ターン目の質問が1ターン目の回答に依存していない」のでそもそもマルチターンとして不適切という指摘。だから拡張して作ったぞ、と。
-
D9-2: Exploring LLM-based Data Synthesis Strategies for Conversational Semantic Frame Analysis
- Semantic Frame Analysis (SFA)のためのデータ合成方法を2つ(テキストから作成するforwardと、ラベルから作成するreverse)試したところ、forwardは人間と相関が高くて良さそう。reverseはエンティティ多様性を失いやすいのがネックになっていそうとのこと。個人的にはreveresが特異なケースもありそうに感じるので、使い方工夫することでforwardでは出しづらいデータ作れたりしそうに感じます。
-
D9-4: MQM-Chat: 対話翻訳のための多次元品質指標
- 対話の自動評価は難しく、人手評価の枠組み(例えばMQM)も提案されている。だけどこれはチャットドメインでは不十分なので拡張したMQM-Chatを構築。人手評価ではMQMで見れない観点も評価できるようになったという話。
-
D9-6: 人はなぜ笑うのか?対話における笑いの根拠ラベルの半自動構築
- タイトル前半から誤解してしまったのだけど、笑いのメカニズムを明らかにしたいとか、笑いが人間にとって恐らく必要なのは何故か、、という話ではなかった。そっち方面ならn=1みたいなところにネタが眠っていそうなんだけど、今回の話は多数決でやってました(それはそれで分かる)。
-
C10-1: 新聞記事からつくる 時事と社会に強い日本語LLM
- 40年分の記事、記事数590万件、3.2BTぐらいでも継続事前学習でエポック積み重ねるだけではダメ。QA形式合成データとか、元記事を言い換えたものを用意したり補完したりすることで性能改善できたらしい。
-
C10-2: 国産農業用LLMのためのインストラクションデータ構築と構築されたLLMシステムの評価
- 農業の普及指導員向け支援ツールとしてのモデル構築。専門知識が必要な現場で、現場を見たりする部分は人間がやりつつそれをサポートする形でのモデルという点がとても良さそう。ネックは専門用語を学習させる部分と、モデル出力の品質評価。かなり専門性の高いメタ的な含意関係認識が必要らしい。ドメイン毎に作り込めば良いだけかもしれないけど、それはそれで大変ではある(からそれ自体の支援もあって良いよね)。
-
C10-3: 日本語を主とした日・英・中トリリンガル700億パラメータモデルの構築
- トークン化効率向上を狙った話。トークナイザ差し替え+継続事前学習+Chat Vectorのマージ。Chat Vectorは「instructionモデルとbaseモデルの重みの差分」で、これに適当な計数倍したものを加えるだけで指示追従性を獲得できるらしい。今回はトークナイザ差し替えちゃってる影響加味して2種類のChatVectorマージすることで謎挙動(たまに感嘆符出まくる症状)を抑えることができ、性能も向上したとのこと。
-
C10-5: 大規模言語モデルの再パラメタ化に基づく初期化による損失スパイクの抑制
- 事前学習段階の損失スパイクを抑制を狙った新たな初期化手法の提案。GPT2で導入された初期化の狙いや妥当性を数式的に議論し、それを踏まえた抑制手法を導入することで「更新比率」の減少を確認。
-
- 「ヒトの知覚や意図、心理状態などを脳活動から予測する脳情報デコーディング技術」
- 脳の情報表現を理解する = 符号化部分の問い
- 脳活動がどのような情報を表しているのか = 復号化部分の問い
- Mind Captioning: Evolving descriptive text of mental content from human brain activity
- 「ヒトの知覚や意図、心理状態などを脳活動から予測する脳情報デコーディング技術」