(NLP2024) 1日目、チュートリアル

Share on:

NLP2024

午前はNL研の続きがあったけども見送って、NLP2024に参加してきました。

基本的には参加人数考えるとびっくりするぐらいスムーズな運営になっていて驚きました。参加証は事前受付(郵送済み)で当日受付なしに割り切ってたり、スポンサー、会場、イベント、現地情報様々なチャンネルがSlackで事前用意済みで発表中もそこで空中戦。X(旧Twitter)いらねーという感じも悪くない。 どこまでマニュアル化してるのかしながら進めてるのかわからないけど、凄いな。 ただし会場のチョイスの問題だと思うけど電源補給口不足なのが気がかり。 どこかの大学でやるとそのあたりもクリアしやすかったんじゃないかと思うけど、昨日のIPSJ NL研も今日のNLPもどちらも一般会場レンタルしてるのは何か理由があるのかしら。

チュートリアルは大きく分けて自然言語処理・LLM入門と、異分野共同研究な枠に分けられてました。前者は資料眺めるだけで良さそうだったので、共同研究側を選択。

デジタル・ヒューマニティーズは人文学とのコラボ、もう一つはタイトルから分かりやすいように社会科学とのコラボ。どちらもコラボならではの話が盛り沢山。

  • 想定通りの話としては「ビッグデータの方法論を異分野に持ち込む」「解釈の難しさ」あたり。
    • ビッグデータ方法論は、大量かつ多様な非構造化データを俯瞰してみることで傾向掴んで活用しようというストーリー。
    • そうでないにしても、基本は相手側のリサーチクエスチョンから出発するか、IT/NLP側の技術的提案から出発するか。ゴールを共有して模索することが重要。
    • 解釈の難しさは、どうしても関係者等のバイアスが避けられない部分があるという話。二重三重に統計持ち込むのも手だけどもそれでも限界があるよね。そのあたりは研究の積み重ねで考えざるを得ない(1研究での判断をしない)ということ以上のことはできなさそう。それはそうかも。
  • データ構造化の際には密結合を避けて疎結合にしようという話は、設計でどこでも現れる現象なんだろうな。
    • 密結合:「私は東京に行く」の「東京」に対して「緯度xxx, 軽度yyy」と直接データを紐づける。データ構造、分析、可視化が一体化していて密。
    • 疎結合:「東京」を固有の識別子aaaに紐づけ、目的に応じて属性を与える。
  • 歴史的データから現在〜未来へのシミュレーションにまで繋げようという話があるのは知りませんでした。Time Machine Europeは過去を推論&シミュレーションで補うだけじゃなくて、未来へも繋げたいらしい。地球シミュレータみたいな気持ちは分かるけど、難しいよね。
  • International Image Interoperability Framework (IIIF, あいとりぷるえふ)なる画像配信方式が共通化されることで、画像ベースのビッグデータへの共通フレームワークを作りやすくなっているらしい。第14回CODHセミナー - IIIF Curation Platform利 活用レシピ100選
  • 社会科学系コラボについては、IC2S2なる国際会議が始まってるらしい。
    • 査読有りアブストのみ(予稿集無し)で議論がメインという、本当の意味での国際会議をしてるとのこと。そこへの参加者等により国内大会(CSSJ)も立ち上げられてて、最近参加者増えつつある模様。
  • コラボを「サブフィールド」として考えず、「その分野を発展させる」という意識で取り組んでるのはなるほどと思った。
  • ナラティブ抽出は個人的にも気になってるんだけど、やっぱり「問題設定自体が難しい、何をすることがゴールなのか落とし込めない」という状態ぽい。
  • 倫理面はどんどん難しくなってくるな。
    • ある研究の広告で、女性には管理職を目指すコーチングサービスが表示されにくくするのが良い(恐らくリーチしやすいという意味で)という分析結果が。でもそれって機会損失に繋がるよね、倫理的に問題ないのか?
    • 犯罪が起きやすい地域というのがあるとして、その情報をもとにパトロールするとその度にデータが積み重なりより強化される。それは事実ではあるがそれ以外の地域を軽んじて良いという判断は妥当なのか?(この例は授業でも取り上げてる)

今の時代、触ること自体が難しかった生データに対して色んな人がアノテーションするどころかそれが全自動化ないし半自動化され、それを前提とした分析を行うことが当然として行われているのだけども、そのアノテーション自体の品質を保証できない状態でやることへの危機感はどうしても拭えないものがあるな。品質保証に代替する別の概念を持ってきてもよいのだけど、何かしらはあるべきだと思う。


T2:チュートリアル2:デジタル・ヒューマニティーズ入門

デジタル・ヒューマニティーズ入門

  • データ駆動 x 共同研究
    • 人文学の新たなテーマを切り開く側面。データを応用することで別分野に適用する側面(e.g., 日記内の気候情報 => 自然科学的データとして利用)。
    • 人類と機会が共に読む => 精読 vs 遠読(俯瞰することで傾向を掴む)
  • 歴史ビッグデータ:ビッグデータの方法論を過去の記録に延長する
    • Time Machine Europe: Big Data of the Past
    • Living with Machines: イギリスの産業革命中に何がどう起きたかを可視化
  • 精度99%以上の日本語OCR嬉しいか問題
  • 歴史的日本語LLM
T4:チュートリアル4:計算社会科学入門

計算社会科学入門

  • 人文学 vs 社会学 <=> 個人に興味 vs 相互作用に興味
    • ネットワークの中で行きている私達
  • データ駆動 vs 解決思考 <=> これまでにない解像度とスケールで定量的かつ学際的研究 vs 社会規模問題へインパクトのある解決策
  • 国際会議IC2S2
    • 査読有り、予稿集無し、既発表OK。議論メイン(本当の意味での国際会議)