(学会参加ログ) 第259回 情報処理学会 自然言語処理研究会

Share on:

IPSJ NLな研究会1日目。予想以上に応募あったらしく1日予定が2日になり、1日目も19:20までプログラムがあるという長丁場な発表会で既にお疲れモード。いや、9:55開始なところを1時間繰り上げたら良いじゃんとは思うけど、ラッシュ時間避ける方を優先したのかな。といっても日曜日だしな、時間設定が謎だ。と思ってたら、会場都合で9時オープンな場所だったらしい。

船迫さん発表は、座長以外から質問・コメント貰いまくりで大盛況。 センシティブだから扱いにくいよねという話が多かったけど、実際そうなんだよな。 それはそうとして、関西での発表で笑いを取ったというのは「偉業を成し遂げた」といえるぐらいの実績達成なんじゃなかろうか。(他に笑いが出たのは1,2件)

My best presentation は (7) の気が利く行動選択。明示的にイベント検出せず(やり終えた前提があると言っても良いけど)、その上でどういう行動系列を予想できるかという点で解決しようとしている考え方が面白い。

以下、発表メモ。


  • (1) ニュース記事を引用するソーシャルメディア投稿の忠実度と理解支援度に基づいた情報継承性のアノテーション
    • SNSでの記事拡散が改変を伴うことがある点について2軸(忠実と、理解しエンド)でアノテーションを提案し、アノテーション用UI用意してデータセット構築したという発表。
    • 記事に即しているかという観点でアノテーションしてるので、記事自体が誤解を招きやすいケースは対象外。
    • アノテーション判断難しそうなのがネックではあるし、推定結果がバイアスになりそうな点が気がかり。どう利用することを想定しているのだろう。
    • 論文紹介アカウントに対してやって欲しいという意見はワロタ。
  • (2) コミュニティノートの有用性評価分析
    • コミュニティノートをどう使うか次第なんだけど、これを有効活用しようという目的自体が個人的には良く分からない。どういうゴールを目指しているのだろう。
    • LDAでトピック崩壊(複数トピックで頻出する語が影響してクラスタ重複部分が増える状況?)が起きる問題に対して改善した ECRTM が提案されているらしい。
  • (3) 複数モデルの統合とデータ拡充による議論評価
    • 議論への参加者を自動評価(合理性、有効性、適切生)しようという話。
    • 複数モデルの損失を合算して片方の学習に用いることで「知識継承」ができるらしい(先行研究)。両方の評価を踏まえることができるのは分かるけど、別モデルの損失を加味して学習することが「継承」になるのは何故だろう。
  • (4) 成果テキスト埋め込みの集約に基づく研究者の特徴表現の検討
    • KAKENに登録されてる論文タイトル=その研究者の興味が強いと考え、タイトルから埋め込みベクトル作ろうちう話。
    • 連盟人数で加重平均した気持ちは理解できたけど、目的次第だよな。評価方法、特に教師データは目的に合致しているのだろうか。
    • 「どこかのタイミングで新しい共同研究が現れたタイミングをラベル設定し、それ以前のデータからそれを推定できると良さそう」というコメントはなるほど。precisionはそれで良いか。
  • (5) テキストベース感情推定のための大規模言語モデルによる学習データ生成におけるfew-shot学習の影響
    • ChatGPT-3.5でコーパス生成させた際の影響観察する話。コーパス生成時のラベル評価と、コーパス用いた学習の与える影響とで若干違いが出るらしい。
    • few-shotが下がるのは3.5だかなのかな。プロンプトの問題なのかな。素朴にはfew-shotがzero-shotより悪くなるというのは受け入れがたい(面白い結果)。
  • (6) CCG-Rubyによる確率文章題の条件記述の解釈
    • 会場メモ
      • Rubyに落とし込めないということから問題文の適切さ判定にも使えると嬉しい。
      • LLMで99%解ければそれで良いという方向に流れそう。残りの1%が解けないことに対して誰も気づかなくなりそうなのが怖い。
  • (7) 行動知識系列を用いた気が利く行動選択の検討
    • 「ごちそうさま」に対して片付ける、「少し休もうかな」に対しておやつ用意するみたいなもの、明示的に指示されていない行動を「気が利く行動」とするらしい。
    • 気が利く行動というのは、一種のシーン検出とそれに基づく行動予測タスクと同一になる? でも明示的なシーン検出はせず、行動予測だけで完結させようとしているようにみえる。(面白い)
    • ただデータセットとして構築してよいのか、できるのかとても謎だ。
    • 熟練ヘルパーさんみたいな人からデータセット構築してシーン検出に使い、その後の行動どうするかはカスタマイズでやると良さげなのかな。
  • (8) 集合型視覚言語埋め込み
    • シーケンス数増やすために視覚埋込と言語埋込をそれぞれ分割し、集合管類似度で処理しようという話。最適輸送で代替。ただし計算が重く、サンプル数1000超えると厳しい。
    • 分割の仕方が影響しそうなんだけど、そのあたりはどうなんだろう。
      • 言語は要約文を使ったらしい。=> 追加で句読点区切りでもやった結果あり。@1は下がるが@5は改善。
  • (9) Scalar Mixing Weightsを用いた生成タスクにおける視覚と言語の情報を事前学習したモデルの分析
    • どの層が重要度戦いかを観察するために Scalar Mixing Weights が使われるらしい。が、これ込みだと生成タスクが劣化する模様。それ、観察手法として妥当なのかしら。。。?
  • (10) 雑談を用いた精神健康支援システムにおける情報獲得に自然な話題転換と情報獲得タイミングの検知に関する研究
    • 直接関連質問を問いかけるのではなく、雑談を通して把握しようというのは良いと思う。が、普段からスマートスピーカーとか使ってるユーザ設定は妥当なのかな。能動的に使う人、という点で既にバイアスはいっていそう。
    • PHQ-9質問することに固執している?
  • (11)応答候補の限られる発話に着目した参照応答ベースの評価基準の分析
    • 再現性のある評価がほしい。そのために生成された文章の評価が難しい事に対し、初対面の状況とか特定ケースではほぼ固定応答が多いということに着目し、「どんな場合にほぼ固定応答になるか」について調査してみたという話。
    • 閉じた質問、三人称の閉じた質問は評価しやすい傾向があるとのこと。
  • (12)指定文法項目の使用を促す先行発話生成
    • 語学学習状況下で文法項目の利用促進をさせたい。が、文法アノテーション付きのデータが少ない。そこで教師あり学習 vs 強化学習 vs プロンプトで先行発話生成させてみたという話。
    • 明示的に指示せずに特定文法項目の利用を促進できるのかしら。
  • (13)リフレーミング可能な対話モデル構築に向けたコーパス設計とモデル試作
    • 座長以外から質問コメントもらいまくりでとても良い発表でした!
  • (14)原発話に忠実な英日同時機械翻訳の実現に向けた順送り訳評価データ作成
    • 同時翻訳実現に向けた試み。MTにとって省略要約は難しいらしい(過度に省略しすぎる)。なんでだろ?
    • 同時翻訳が必要な状況(言い終えたあとで纏めて翻訳が駄目な状況)ってどういうタスクなんだろう。
  • (15)元文に忠実な日本語平易化コーパスの構築
    • 文単位で平易化したものを繋げても、文章全体としての平易化完成とはならない状況があるらしい。文脈保持とかの話?
  • (16)口調弁別評価データセットの作成と口調エンコーダの評価
    • 口調を扱う話。ケルシー構文的なやつは口調として扱え無さそう。
    • 会場メモ:口調ではなく、話者が扱っている話題で識別してたりしない?
    • 実際にやってるデータセットの口調タイプ設定意図が良く分からない。キャラクタ識別じゃなくて口調識別に置き換えているのは何故だろう。
  • (17)複数文書要約を用いた事実性の検証
    • 要約の影響大きそう(デメリットが大きそう)に思ったけど、実際には先行研究上回ったらしい。トークン数少なくなる文処理しやすくなるというのもあるのかな。
    • 会場メモ:スパン抽出と比較しては(なるほど)
  • (18)ソフトウェア設計書群を外部知識源とするRAGのための検索性能改善の検討
    • Excel設計書やめてというお話(違)。
  • (19) 化学プロセス関連論文からの変数定義抽出に特化した言語モデル
    • 論文読みやすくしたいけどこの分野に特化したLLMないから作って(それは別研究)、それを使って変数定義抽出したという「全部やるぜ」な話。面白い。