情報処理学会 第74回全国大会 を振り返る

Share on:

情報処理学会 第74回全国大会が日程上終了しました。

上記レポートでは基本的に質疑応答を中心とした備忘録がメインでした。

この記事では、「聴講した発表」で興味深かった内容等について整理します。

整理といってもピックアップしながら何が面白かったか(どういう視点で見てたのかとか)をコメントとして残しておくだけですが、いろんな視点があるんだよということをこの記事読んでる学生に少しでも伝わると嬉しい。

Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents ○ Yimin Chu(東大),高須淳宏,安達 淳(国立情報学研)
PDFが与えられた時に機械的に「意味的に繋がりのある箇所をグルーピングしていく」という話。目新しさは感じなかったけど、人工頭脳プロジェクトみたいなケースでの「用紙を見たときに論理構造を自動で抽出したり、図表イメージ等を説明文と紐付けて解釈する」ところでは必要になる技術だよなという点で「残されてる課題」が何なのか気になりました。図と説明文を紐付ける方は、NIIの「テキストからの物理モデル生成に向けて」で話を聞けると思うので、楽しみ。

中学校レベルの数学の文章題を解くシステム ○箕村大輔(電機大)
同様に人工頭脳プロジェクトを意識して聞いてました。この発表は「(有理数の演算で解くタイプの)文章題を解く」というソルバ自体の提案。この手のアプローチにおける根っこは数理論理学で、実際にテキスト解析しながら論理式&論理記号に変換するところをやってるという理解で合ってるのかな。そうだとして、似たようなアプローチが多々あるんだろうけど、既存アプローチでの問題点などが気になるのと、「直接文章には現れない【常識を加える】ことで不足知識を補う」ところを手動でやってるところは残念。いや、手動でやっても良いとけど、対象としてる「中学校レベル」では(a)どのぐらいの数が必要なのかが想定できているのか、(b)そもそも時間かければ解決できる問題なのかといった意味での「記述可能性」が気になる。

質問応答システムにおける再検索を用いた回答候補の抽出手法 ○油井宣明,福本淳一(立命館大)
アプローチはともかく「ユーザがシステムに入力した質問文中に情報が不足している場合」という視点に共感を覚えました。全部が全部じゃないですが「特徴ベクトルで類似度云々」という話であれこれ処理しようとしてると「どういう処理であれ特徴ベクトルが適切に構築されている」という前提が必要になるんですが、そうじゃなくて「不適切だったら適切になるよう作り直そう。必要なら情報源広げよう(バイアス/縮小/集中しよう)」という設計指針で動くシステムであっても良いわけで。

冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化 ○佐藤裕也,豊田哲也,延原 肇(筑波大)
一種の要約・サマリ生成タスクだと思いますが、こういう「まとめる」タスクにおいて「何を除外するか、どういう視点でグルーピングするか」といったことまで含めて半自動化で指示しながら整理できると嬉しそう。

マイクロブログ上の中心的話題とそれに対するユーザの反応の抽出 ○藤川智英,鍜治伸裕,吉永直樹,喜連川優(東大)
Google trendsbuzztterを合わせたような話。堀川くんがやってるテーマに近いですが、こういう話を聞くと抽出漏れや痒い所への手の届き難さが気になってしまいます。2chまとめサイトみたいなものでも良いですが、まとめる人(システム)毎の面白さがあって良いと思いますが、ユーザが操作できる余地を用意できないかなーと。

準天頂衛星を用いた防災情報配信システムの設計と有効性検証に関する研究 ○原田貴史,石田剛朗,楠田哲也,神武直彦(慶大)
めちゃくちゃ細い回線上に一方通行な回線(約6秒に1回250bit程度)だけど、アジア・オセアニア全域カバーできることもあって、何かしら防災に役立てられないかという話。具体的なオペレーションが(多分)設計できてないようですが、グリニッジ標準時みたいに何かしら世界標準規格化できると便利になりそうな予感。

日本語のやさしさの自動推定のための特徴量に関する基礎的検討 ○張  萌,伊藤彰則(東北大),佐藤和之(弘前大)
日本人の観点で作られた「やさしさ」が本当にそう感じられるのかが分からないということで、実地調査含めた検討をしたいという話。原語と意味や発音が異なることが多い「外来語」が「やさしさ」に比較的相関しているとのこと。「理解する/誤解を生じ難い文章」という観点での「自然らしい文」が推定・自動生成できるようになると嬉しいよね。

文字列間の前処理付きオフライン全文検索エンジン類似度距離 ○佐藤 哲(楽天)
「消費者-広告代理-出品者」という3者間のマッチングを改善するため、「消費者が検索時に入力する任意の文字列」と「出品者が用意するコンテンツ」のマッチング精度向上したいという話。去年発表したという「対象分野に特化した類似度計算」(多分これ)の続きで、記憶容量&計算コストを改善したらしい。情報源依存でスコアが異なるので類似度の適切さについても要検証だと思うけど、なるべく汎用性のある類似度したいならGoogle辞書なり使うだけでOKという立場で、ドメイン/コミュニティ特化類似度みたいなのを目指しているっぽい。

係り受け構造アライメントを用いた文間の差異箇所認識 ○小林幹門,篠崎政久,加納敏行(東芝ソリューション)
開発ドキュメントなど、文書間の不整合箇所を確認する作業に膨大な時間と人的コストが大きいし、修正する度不整合箇所発見タスクが生じて以下略な状態なのをなんとか簡素化したいという話。現場ならではの具体的なタスクだよね。去年のNLP年次大会で聞いた実務翻訳で耳にした翻訳メモリと類似タスクにも見えるのだけど、どの辺りに違いがあるのかしら。

複雑ネットワークからのキーワード抽出 ○三澤英樹,大沢英一(はこだて未来大)
コーパスを使用しないキーワード抽出という視点は面白いけど、こういうアプローチで「抽出されたキーワード」というのはどういう特性を有するのだろう。普通、「特徴的な」とか「良く使われる」とか何かしら相対的な特徴があって初めて「このコンテンツならではの特徴」というのが見えてくると思うのだけど。

知的ヘルプシステムのための意味を考慮したテキストマッチング手法の改良と評価 ○柿間俊高,村松幸樹,杉本 徹(芝浦工大)
語彙的マッチングのアプローチとして、「概念付与+係り受け解析+深層格付与」という流れに「なるほどー」と思いながら聞いてました。ちゃんとした評価までやれてないようですが、割とざっくりとした方法でも十分な結果が得られたりするのかしら。

ストーリー性を考慮した映画あらすじからの類似度計算 ○村手宏輔,黒岩眞吾,堀内靖雄,篠崎隆宏(千葉大)
「あらすじ」というコンテンツを「語彙的な類似度+ストーリー性の類似度」で検索したいという話。実際問題としてあらすじマッチングがどれぐらい有益かは分かりませんが、時系列データとしてのマッチングに「語彙的な意味も加味」している点が面白い。語彙は「映画のジャンル20種程度を素性とする特徴ベクトル」として表現していた気がして、TFIDFみたいな「コンテンツ毎に特徴量が異なる」形式ではなく固定値での扱いでした。それにも関わらず、ストーリー性をDPマッチングで考慮することでマッチング精度としては向上しているらしい。どちらの要因がより強いのかも気になりますが、とても面白い試み。

共起ネットワークを用いたクラスタ性によるテキスト分類○小林雄太,村上裕一,中村真吾,橋本周司(早大)
クラスタ係数に基づく分析で「テキスト分類」できないかという話。ちょっと無理筋というか、別指標持ち込まないと無理なんじゃないかなとは思いつつ、このアプローチで分類される結果にどういう意味があるのかという解釈を考える(自動解釈する)のは楽しそう。うまく記号化できないという点で、ある意味人間の脳内でやってるような処理に近い側面もあるのかなー、的な。

Tags: , , ,