NLP2025, day 5

Share on:

言語処理学会最終日はワークショップ1: LLM時代のことばの評価の現在と未来に参加してきました。

大規模言語モデル(LLM)はことばの生成と評価の両面で活用が広がり,人間のことばの運用に大きく影響を与えることは間違いない. LLM as a judge と呼ばれる評価への利用はことばの評価を目的に則して柔軟に行うための非常に有望なアプローチとして期待される一方で,LLMが苦手なことは正確な評価が難しいという問題もある.

LLMそのものを評価に使うのも良いけど特性把握しとかないと危険だよねとか、既存の評価指標だけでも測れていない側面あるよねというような視点で Shared task を設定し、皆で取り組んで知見共有しようというワークショップでした。

印象に残った話題

  • 「誰に向けて平易化するのかが重要ではないか」
  • 「100字ちょうどに制限することで回答空間を限定すると観察しやすい」
  • 「口調や性格だけでなく、知識や能力も低下するのが自然では?」

感想

  • 現時点では複数指標による多面評価をせざるを得ない(それはそう)。低資源言語みたいなのを考えると言語毎に指標作るの大変な気がするけど、、。招待講演1であった「ボアスの3点セット(辞書、テキスト、記述文法書)」を何か代表的な言語で用意してベースとし、他言語版を高品質に自動生成してやれば良いのかしら?(できるのか?)
  • 現指標で測れていない何か、という部分はあまり触れられていない印象。(ゼロではないし、まばらにあちこちで触れられてたとも思うけど)
    • 小学生低学年っぽく喋らせる際に「口調や性格だけでなく、知識や能力も低下するのが自然では?」という指摘に強く賛同。
    • 大人が子供の頃の思考を思い出せないぐらいには、LLMも「部分的に振る舞うことはできても違和感のある振る舞いに留まる」みたいなことがあるのかしら。というよりも、人間の役者さんが何かになりきろうとする際に必要な情報源が足りてない?
    • 何となくの妄想なんだけど、「素の翻訳」「素の要約」みたいなタスク設定自体が十分ではなく、「ペルソナXがシーンYでやる翻訳」みたいに条件付けしてやることで「許される範囲」を狭めて評価しやすくした上で、どのぐらいのペルソナ/シーンに対応できるかを図る。みたいなアプローチの方が良かったりしないのかな。シーンYというのは、子供だったらいつでも子供っぽい表現する訳でもないというのを考慮したいから。
    • 一方で、条件付けたとしても途方もない幅がありそうでもある。けど十分な絞り込みが無理なのだとすると、「担保しようとしてる質って何?」という話になりそう。

以下は発表メモ。


【一般発表】

  • 第二言語習得にとってのLLM Judgeの功罪 ーパフォーマンス向上と身体知の外部化ー
    • 中国語を教えている立場からの発表。教員としては校正あたりで使ってほしいが、学生は直接翻訳なりで使ってしまいがち。学生個々人が授業外でどう利用するかということと、授業でも用いることを前提として授業内外の教育をどうデザインするかという視点が重要だという指摘も。翻訳に限らずあちこちでそうなってくるよね。
  • 文書レベルの日本語平易化の評価基準の提案とデータセット構築
  • 大規模言語モデルを活用したパブリックコメントの反映可視化と課題分析
    • パブリックコメントが形骸化してるという指摘もある一方で機能している部分もあるだろう。それを可視化したいという問題意識で取り組んでいる話。(1)パブコメと事業案等の対応付け、(2)それを踏まえた注釈生成、(3)注釈自体の妥当さ評価、(4)対応付けすべきかの評価、という流れで取り組んでいるらしい。こういう可視化はあちこちでニーズ強そう。

【招待講演】 大規模言語モデルの生成能力評価

  • pfmt-bench-fin-ja: 金融分野向けのLLM-as-a-judgeのベンチマーク
    • 「分野特化のベンチマーク」を作りたいならこういうアプローチあるよという流れでの紹介。
  • [pfgen-bench](https://github.com/pfnet-research/pfgen-bench]
    • 事前学習モデルを(instruction tuningする前に)直接評価したい。
      • 対話機能はないが、列挙機能はあるという特性を利用
        • 数十個の例示で文体を矯正しつつ、各問100万回答ずつ生成させる
        • 温度は1がベター。低いと品質良くなる部分もあるが、分布が壊れ同じ文章が繰り返されやすい傾向も強くなる。
      • ちょうど100文字の回答
        • 以外と回答空間は狭い。「100字でできる限り重要なキーワードを流ちょうに詰め込めれば高い評価が得られる」
      • 重要語を拾ってほしい & 量子化で壊れるケースは50トークンぐらいで代替検出できる & できる限り回答空間を狭くしたい
      • 例示による回答空間制限+複数の参照回答

【翻訳部門】

皆さんハックしすぎだろう(遠い目)

いくつかはサイト上で発表資料公開されてるのでそちら参照。

ハックした皆さんの共通意見としては、参照文参照するタイプはそれなりに頑健性を担保しやすい。言い換えるとそうじゃないタイプ(内部表現で類似度チェックとか)はハックしやすい。