言語処理学会第18回年次大会(NLP2012)を振り返る

Share on:

自然言語処理学会第18回年次大会(NLP2012)が日程上終了しました。

記録のため、見つかる範囲でNLP2012関連ブログ記事を整理すると以下のようになります。

當間レポートでは基本的に質疑応答を中心とした備忘録がメインでした。
この記事では、「聴講した発表」で興味深かった内容等についてつらつらと書いてみます。


<目次>
知識表現について

不勉強を承知の上で書きますが、知識の表現方法として様々な取り組みが行われているにも拘らず未だにうまい解決方法が見つかっていない。問い方が悪いという側面も意識はしていますが、representation 問題に関するモヤモヤ感が拭えません。乾先生のチュートリアルで紹介のあった「Distributional semantics」というのも一つの道だと思いますし、propositionalとの融合という道も分かりますが、直感的にはうまくいきそうに思えないです。ここでいう「うまくいきそうにない」は、私にとっての設問が人工生命・人工知能寄りの話であって、固定ドメインでの固定タスクに特化させたアプローチとしては十分機能すると思います。そういう意味では「Distributional semantics」という考え方は興味深い。

(目的に応じた)特徴量表現について
前述の知識表現と絡む話ではありますが、「文書分類するなら/深層格抽出するなら/同義語抽出するなら/etc.こういう特徴量」というような、大雑把にまとめてしまうと「目的に応じた代表的な特徴量表現」というのがあるかと思います。研究の掘り下げ度に応じて新たな表現形式が日々生まれてくるのは良いとして、目的に応じてユーザが取捨選択するというのではなく、取捨選択まで含めて低コストで最適化できないのかなぁ。

単純な定式化方法としては「予め候補を列挙しておき、最適な組み合わせを見つける」みたいなのが思いつきますが、うーん。そこまでやるならもう一段メタ的にレベル挙げて、対話的に背景・目的・目標・例題等を提示しながら問題設計をサポートしてくれるような所を目指した方が嬉しそうではある。災害関連テーマセッションの全体討議で出たような「ポイントが別にもあって、災害時にはガソリンが無くなるとは誰も思っていなかった/原発壊れる/計画停電などなど、予測できなかったイベントが多かった。どういう情報を抜いてくるかが分からない状況下で「抜いてくる」というタスクは一つ大きな面白いタスクだと思う。」への一つの解としては、そういうのを低コストに実現する必要があるのかなと想像。より現実的なエキスパートシステムとか、実際に現場で利用できるレベルでの知識の蓄積の仕方、と考えても良いかもしれない。専門家に相談したら良いという話でもあるけど、それも難しい状況があるわけで。

そういう状況&タスクに相当すると思われる一例として、行政に関するSNS上のコメントの自動分類とか、「東日本大震災関連の救助要請情報抽出サイト」構築と救助活動についてあたりのタスクは、前述の「より現実的なエキスパートシステムがあればそのレベルは一定程度解消できる」ように思う。前提が曖昧過ぎますがw

IEICE SIG-WI2関連のツイート(@m2nrさん)で見かけたのですが、減災情報システム合同研究会なるものが4月に発足するらしい。

含意関係認識について
RITEに含まれてる1タスクですが、NIIの宮尾さんが大学入試関連の発表で言われてたように「記憶していることと問われていることが意味的に一致しているかどうかを認識するタスク」という観点から「人間がテキストを介してやっているものは何か」ということへの解明に迫ろうとしている点はとても面白い。去年のキックオフシンポジウムでもあった「含意関係認識以外にどういうタスクがあるのか、それらを積み重ねていったその先にあるものは何か」という点は、何があるのだろう。一方で、ここで挙げた「知識表現/特徴量表現」みたいなことを考えると、実は今回の取り組みもまだ「実はロジックで記述可能な文章」に制限されてたりしないかという気もする。

いろいろ関連発表ありましたが、個人的に続きが気になるのは数量表現を伴う文における含意関係認識の課題分析

発話文の前提の推定
対話のような複数主体が共同活動するには「必要な知識・信念(=前提)」を共有化する必要があり、対話を通してその前提をどう作り上げていくかという話。英語テキストでは前提推定に役立つ手掛かりに関する研究が多々あるけど、今回は日本語でやってみたらしい。「前提」という考え方が良く分からないけど、「対話」を対象にしているだけあって他には無い視点(だから理解し難いの)かもしれない。

説明生成に基づく談話構造解析の課題分析
対象は英語談話で、Boxerというセマンティック表現に変換するシステムを利用しているらしい。特に「接続詞が非明示的(implicit)な状況での意味的関係」を推定するタスクの解決が目的で、現状ではF値4割程度とのこと。日本語だとどのぐらいやられているんだろう。深層格推定にも近いタスク?

複数ドメインの意見分析コーパスを用いたアンサンブル学習による意見分析システムの提案
「ドメイン」そのものを自動抽出というか自動分類するようなシステムがあると良さそう。目的に応じて異なりそうなので、そこも加味する必要ありそうだが。

定義文から自動獲得した言い換えフレーズペアの分析
人手でアノテーション精査した後でALAGINフォーラムで公開予定らしい。いますぐ必要なデータというわけではないのだけど、あれこれ言語資源が提供されてるという点ではとっとと使える状態になっておく方がベターだとも思う。ぐぬぬ。

法令文の構造的書き換え
タスクとして面白いのだけど、アプローチとしては情報処理学会全国大会であった係り受け構造アライメントを用いた文間の差異箇所認識の方が実用面で使いやすそう。法令文ならではの特有タスクもあると思うけど、より一般化されたタスクという点で。

2ツイートを用いた対話モデルの構築
最終的な目標をどういうところに設けているのか分からなかったですが、個人的には「より人らしく見えるbotのモデル化」みたいな視点で話を聞いてました。人らしく見えるというだけで、提案/推薦/相談とかいろんなタスクへの心的負荷軽減に繋がるんじゃないかなーとか。もやもや。

同じような点では、市川先生による招待講演での「対話言語」という切り口での仮説や検証結果がとても面白い。こんな話されたら「書籍:対話のことばの科学」を即ポチリますとも。

コールセンタ対話における話者の知識量推定も、ある意味「早い段階で対話相手の知識量を把握することができれば、それに応じてより適切な対応を取りやすくなる」みたいな話に繋がるんだろうな。

何をつぶやいているのか?:マイクロブログの機能的分類の試み
ツイートを機能面で分類しましょうという話で、まずは分類体系について検討したという話。こんな感じであまり良く考えずに「まずやってみてから問題点を洗い出す」というアプローチも、ある程度の知見を得られたのでやって良かったではありますが、もう少し後先の事を考えてアクションに移すべきだったか。とはいえ、今はまた「体系なりの指標をシステム構築者が設計する」というのに限界を感じてたりするので、別アプローチ取ってても同じ道を歩んでいたとも思う。いくつかの代表的な俯瞰目的にはこういう体系化が大切なんだと思う。

俯瞰目的によっては、意味検索のプロトタイプシステムの構築や、料理レシピテキストの構造解析とその応用のようなアプローチの方が良さそう。前者だとあるキーに対する機能的側面による絞り込みがしやすそうだし、後者だとフローチャート化することでストーリーを加味した抽象化ができそうな予感。ストーリー性という点ではストーリー性を考慮した映画あらすじからの類似度計算というような話が情報処理学会全国大会でありました。

小学生のための新聞読解支援に向けた重要語抽出の検討のように、注目されやすい/説明を聞きたくなりがちな観点での重要語を自動抽出することで「デフォルト視点」みたいなのを設計することもできそう。

ランダムフォレストを用いた英語習熟度の自動推定
今回「作文・校正支援」関連の発表を聞けていないのですが、こういう「習熟度推定」という側面も一つの校正支援ができそうだなと思って聞いてました。

作文事例に基づいた児童の「書くこと」に関する学習傾向についての分析−小学四年生による紹介文・感想文を中心に−も、校正という観点からどういう風にアノテーションしたら良いのかという点でとても参考になりそう。大学での課題指導か、論文指導版であれこれ校正コーパスあると嬉しいよなー。

違う観点になりますが、機械生成した作文でも同じ特徴量で評価できるのかしら。


同じく校正の一例としては冗長な文の機械的分析と機械的検出みたいな話も。

辞書の意味を利用した日本語単語と英語単語の難易度推定
情報処理学会全国大会でも同じく「日本に住む外国人」にとっての日本語の難易度推定という話がありましたが、こういうのを突き詰めていくと頭脳プロジェクトでいうところの「外国人向けの誤解し難い制御された文」みたいなものを生成できるようになったりするのかな。

論文間参照タイプ判定の細分化に基づくサーベイ補助システムの構築
是非とも実用レベルに仕上げてCiNiiに組み込まれて欲しいw

住民参画Webプラットフォームにおけるコンサーン・アセスメント支援機構
個人的に学会イベント参加する度に「イベントレポート」として文章化(記録化)していることもそうなんですが、こういう学術交流に関する「論文」以外の交流(質疑応答とか)をうまく残すことってできないのかなー。pingpong project(ピンポンプロジェクト)の一側面とも思ってたんですが、久しぶりにブログ見直してみるとあまり続いていない(?)ように見えるし。うーん。

安否情報ツイートコーパスの詳細分析とアノテーションに関する一考察
災害関連については既に書いたのでここではANPI_NLPの今後について。全体討議でも話題になりましたが、「災害ツイートコーパスがないとできないことと、そうでないことはあるか」が気になります。憶測・デマ混じりの中で云々というのはそのタスク例なのかな。A4:テーマセッション3 : 災害時における言語情報処理(1)ではそれ関連の発表が多かったらしい。

Tags: , , ,