Posts Tagged ‘学会’

言語処理学会第18回年次大会(NLP2012)を振り返る

水曜日, 3月 21st, 2012

自然言語処理学会第18回年次大会(NLP2012)が日程上終了しました。

記録のため、見つかる範囲でNLP2012関連ブログ記事を整理すると以下のようになります。

當間レポートでは基本的に質疑応答を中心とした備忘録がメインでした。
この記事では、「聴講した発表」で興味深かった内容等についてつらつらと書いてみます。


<目次>
知識表現について

不勉強を承知の上で書きますが、知識の表現方法として様々な取り組みが行われているにも拘らず未だにうまい解決方法が見つかっていない。問い方が悪いという側面も意識はしていますが、representation 問題に関するモヤモヤ感が拭えません。乾先生のチュートリアルで紹介のあった「Distributional semantics」というのも一つの道だと思いますし、propositionalとの融合という道も分かりますが、直感的にはうまくいきそうに思えないです。ここでいう「うまくいきそうにない」は、私にとっての設問が人工生命・人工知能寄りの話であって、固定ドメインでの固定タスクに特化させたアプローチとしては十分機能すると思います。そういう意味では「Distributional semantics」という考え方は興味深い。

(目的に応じた)特徴量表現について
前述の知識表現と絡む話ではありますが、「文書分類するなら/深層格抽出するなら/同義語抽出するなら/etc.こういう特徴量」というような、大雑把にまとめてしまうと「目的に応じた代表的な特徴量表現」というのがあるかと思います。研究の掘り下げ度に応じて新たな表現形式が日々生まれてくるのは良いとして、目的に応じてユーザが取捨選択するというのではなく、取捨選択まで含めて低コストで最適化できないのかなぁ。

単純な定式化方法としては「予め候補を列挙しておき、最適な組み合わせを見つける」みたいなのが思いつきますが、うーん。そこまでやるならもう一段メタ的にレベル挙げて、対話的に背景・目的・目標・例題等を提示しながら問題設計をサポートしてくれるような所を目指した方が嬉しそうではある。災害関連テーマセッションの全体討議で出たような「ポイントが別にもあって、災害時にはガソリンが無くなるとは誰も思っていなかった/原発壊れる/計画停電などなど、予測できなかったイベントが多かった。どういう情報を抜いてくるかが分からない状況下で「抜いてくる」というタスクは一つ大きな面白いタスクだと思う。」への一つの解としては、そういうのを低コストに実現する必要があるのかなと想像。より現実的なエキスパートシステムとか、実際に現場で利用できるレベルでの知識の蓄積の仕方、と考えても良いかもしれない。専門家に相談したら良いという話でもあるけど、それも難しい状況があるわけで。

そういう状況&タスクに相当すると思われる一例として、行政に関するSNS上のコメントの自動分類とか、「東日本大震災関連の救助要請情報抽出サイト」構築と救助活動についてあたりのタスクは、前述の「より現実的なエキスパートシステムがあればそのレベルは一定程度解消できる」ように思う。前提が曖昧過ぎますがw

IEICE SIG-WI2関連のツイート(@m2nrさん)で見かけたのですが、減災情報システム合同研究会なるものが4月に発足するらしい。

含意関係認識について
RITEに含まれてる1タスクですが、NIIの宮尾さんが大学入試関連の発表で言われてたように「記憶していることと問われていることが意味的に一致しているかどうかを認識するタスク」という観点から「人間がテキストを介してやっているものは何か」ということへの解明に迫ろうとしている点はとても面白い。去年のキックオフシンポジウムでもあった「含意関係認識以外にどういうタスクがあるのか、それらを積み重ねていったその先にあるものは何か」という点は、何があるのだろう。一方で、ここで挙げた「知識表現/特徴量表現」みたいなことを考えると、実は今回の取り組みもまだ「実はロジックで記述可能な文章」に制限されてたりしないかという気もする。

いろいろ関連発表ありましたが、個人的に続きが気になるのは数量表現を伴う文における含意関係認識の課題分析

発話文の前提の推定
対話のような複数主体が共同活動するには「必要な知識・信念(=前提)」を共有化する必要があり、対話を通してその前提をどう作り上げていくかという話。英語テキストでは前提推定に役立つ手掛かりに関する研究が多々あるけど、今回は日本語でやってみたらしい。「前提」という考え方が良く分からないけど、「対話」を対象にしているだけあって他には無い視点(だから理解し難いの)かもしれない。

説明生成に基づく談話構造解析の課題分析
対象は英語談話で、Boxerというセマンティック表現に変換するシステムを利用しているらしい。特に「接続詞が非明示的(implicit)な状況での意味的関係」を推定するタスクの解決が目的で、現状ではF値4割程度とのこと。日本語だとどのぐらいやられているんだろう。深層格推定にも近いタスク?

複数ドメインの意見分析コーパスを用いたアンサンブル学習による意見分析システムの提案
「ドメイン」そのものを自動抽出というか自動分類するようなシステムがあると良さそう。目的に応じて異なりそうなので、そこも加味する必要ありそうだが。

定義文から自動獲得した言い換えフレーズペアの分析
人手でアノテーション精査した後でALAGINフォーラムで公開予定らしい。いますぐ必要なデータというわけではないのだけど、あれこれ言語資源が提供されてるという点ではとっとと使える状態になっておく方がベターだとも思う。ぐぬぬ。

法令文の構造的書き換え
タスクとして面白いのだけど、アプローチとしては情報処理学会全国大会であった係り受け構造アライメントを用いた文間の差異箇所認識の方が実用面で使いやすそう。法令文ならではの特有タスクもあると思うけど、より一般化されたタスクという点で。

2ツイートを用いた対話モデルの構築
最終的な目標をどういうところに設けているのか分からなかったですが、個人的には「より人らしく見えるbotのモデル化」みたいな視点で話を聞いてました。人らしく見えるというだけで、提案/推薦/相談とかいろんなタスクへの心的負荷軽減に繋がるんじゃないかなーとか。もやもや。

同じような点では、市川先生による招待講演での「対話言語」という切り口での仮説や検証結果がとても面白い。こんな話されたら「書籍:対話のことばの科学」を即ポチリますとも。

コールセンタ対話における話者の知識量推定も、ある意味「早い段階で対話相手の知識量を把握することができれば、それに応じてより適切な対応を取りやすくなる」みたいな話に繋がるんだろうな。

何をつぶやいているのか?:マイクロブログの機能的分類の試み
ツイートを機能面で分類しましょうという話で、まずは分類体系について検討したという話。こんな感じであまり良く考えずに「まずやってみてから問題点を洗い出す」というアプローチも、ある程度の知見を得られたのでやって良かったではありますが、もう少し後先の事を考えてアクションに移すべきだったか。とはいえ、今はまた「体系なりの指標をシステム構築者が設計する」というのに限界を感じてたりするので、別アプローチ取ってても同じ道を歩んでいたとも思う。いくつかの代表的な俯瞰目的にはこういう体系化が大切なんだと思う。

俯瞰目的によっては、意味検索のプロトタイプシステムの構築や、料理レシピテキストの構造解析とその応用のようなアプローチの方が良さそう。前者だとあるキーに対する機能的側面による絞り込みがしやすそうだし、後者だとフローチャート化することでストーリーを加味した抽象化ができそうな予感。ストーリー性という点ではストーリー性を考慮した映画あらすじからの類似度計算というような話が情報処理学会全国大会でありました。

小学生のための新聞読解支援に向けた重要語抽出の検討のように、注目されやすい/説明を聞きたくなりがちな観点での重要語を自動抽出することで「デフォルト視点」みたいなのを設計することもできそう。

ランダムフォレストを用いた英語習熟度の自動推定
今回「作文・校正支援」関連の発表を聞けていないのですが、こういう「習熟度推定」という側面も一つの校正支援ができそうだなと思って聞いてました。

作文事例に基づいた児童の「書くこと」に関する学習傾向についての分析−小学四年生による紹介文・感想文を中心に−も、校正という観点からどういう風にアノテーションしたら良いのかという点でとても参考になりそう。大学での課題指導か、論文指導版であれこれ校正コーパスあると嬉しいよなー。

違う観点になりますが、機械生成した作文でも同じ特徴量で評価できるのかしら。


同じく校正の一例としては冗長な文の機械的分析と機械的検出みたいな話も。

辞書の意味を利用した日本語単語と英語単語の難易度推定
情報処理学会全国大会でも同じく「日本に住む外国人」にとっての日本語の難易度推定という話がありましたが、こういうのを突き詰めていくと頭脳プロジェクトでいうところの「外国人向けの誤解し難い制御された文」みたいなものを生成できるようになったりするのかな。

論文間参照タイプ判定の細分化に基づくサーベイ補助システムの構築
是非とも実用レベルに仕上げてCiNiiに組み込まれて欲しいw

住民参画Webプラットフォームにおけるコンサーン・アセスメント支援機構
個人的に学会イベント参加する度に「イベントレポート」として文章化(記録化)していることもそうなんですが、こういう学術交流に関する「論文」以外の交流(質疑応答とか)をうまく残すことってできないのかなー。pingpong project(ピンポンプロジェクト)の一側面とも思ってたんですが、久しぶりにブログ見直してみるとあまり続いていない(?)ように見えるし。うーん。

安否情報ツイートコーパスの詳細分析とアノテーションに関する一考察
災害関連については既に書いたのでここではANPI_NLPの今後について。全体討議でも話題になりましたが、「災害ツイートコーパスがないとできないことと、そうでないことはあるか」が気になります。憶測・デマ混じりの中で云々というのはそのタスク例なのかな。A4:テーマセッション3 : 災害時における言語情報処理(1)ではそれ関連の発表が多かったらしい。

言語処理学会第18回年次大会(NLP2012) 3日目レポート

金曜日, 3月 16th, 2012

学科システムメンテナンスのためブログにアップロードできるのがいつになるのか分かりませんが、記事自体は 3/15 付けで書いてます。昨晩の隠戸で頂いた牡蠣づくしのお陰なのかすこぶる快適な目覚めで始まりました。

自然言語処理学会第18回年次大会(NLP2012)本会議3日目」に参加してきました。

最終日となる3日目は、午前セッション+ポスターセッション+午後セッションという3構成。
参加したプログラムは次の通りです。

 ・セッション4: D4:教育応用・新応用
 ・ポスターセッション: P3: ポスター(3)
 ・セッション5: A5:テーマセッション3 : 災害時における言語情報処理(2)

例によってポスターセッションは遠目に見たり話を横耳で聞いたりしたのが殆どなので、変な解釈が多いかもしれません。

以下、その参加メモになります。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
D4:教育応用・新応用

P3:ポスター(3)

A5:テーマセッション3 : 災害時における言語情報処理(2)


D4:教育応用・新応用   3月16日(金) 9:00-12:00 602講義室  座長: 山田一郎(NHK)


D4-1 ランダムフォレストを用いた英語習熟度の自動推定 (pp.979-982) ○小林雄一郎 (阪大/学振)

英語力テストは人が評価する(人+人+機械のケースも出てきた):全体的評価/語彙や文法等の分析的評価/特定要因評価
客観的な評価基準と統計モデルで習熟度を推定したい
 習熟度の情報付与されたコーパス
 20変数+相関分析+ランダムフォレスト+k-近傍: Level1と2の適切な境界は1.5か?1.4,1.6とかズレてることは無いか?

naltoma: 機械生成した英作文の自動評価->改善目安にも繋がる?(機械作文の特性とは異なる?)
naltoma: 採点時の外部要因は考えられないか?(他の作文を見ることによる影響とか)

Q: k-近傍使うという話だが、ランダムフォレストで分類しない理由は?
A: 分類問題として扱うことも可能だが、やや精度が落ちてしまう。順序情報を使いたかった。
Q: 順序情報を無視した場合でも良くなりそうだが、試した?
A: 4,5パーセント程度落ちた。
Q: 分類数によっても変わらないか?
A: 点数があるので分類数を自分で決めることも可能だが、今回は4段階に分けられていたのでそれに従った。

Q: 回帰における説明変数の動く範囲は、0~1とか正規化されてる?
A: 変数によるが文あたりの正規化とかをしている。正規化の仕方が影響するという話もある。

Q: 人が判断したらどれぐらいで切るものなのか? upper-boundも見れるので試してみると良いと思う。実はとても難しい問題では?
A: このデータに関してはチェックしていない。


D4-2 辞書の意味を利用した日本語単語と英語単語の難易度推定 (pp.983-986) ○中西聖明, 木藤善信, 木村祐介, 椎名広光, 北川文夫 (岡理大)

日本人から見た日本語単語難易度と、非母国語者からみた難易度に違いがありそう->推定したい
SVM繰り返し学習

naltoma: 英英辞書やWordNetをベースにすることのバイアスが強そうだが、例えばニュースや口頭等のような形で生活環境で触れやすい単語は難易度が低いとかは考慮できない?(難易度という観点は適当か?)

Q: Webデータを用いた場合について。検索して一文抽出してくるという話だが、言葉の定義になっていないものも多くありそうだが?
A: 簡単なルールしか入れていないが、「同じスペルが複数現れるのは除外する」とかぐらいしかチェックしていない。

Q: 国語辞典で調べた例では、辞書を変えて分布が変わっていたから日本人にとって易しいが外国人にとって難しいという判断をしているが、これは辞書/英検とかの学習対象レベルがどのあたりに属しているかという解釈に相当する?
A: はい。
Q: 定義文の説明で判定するという所も、定義文は基本的に分かりやすく説明しようと書かれていると思うが。
A: 難しいか易しいかであれば割と簡単に判定できているが、中間レベルでの差異が判定困難。
Q: それ以外の情報源を使う予定は?
A: 係り受けとかいろいろ加味してやってみたが実際の精度は減ってきているという経緯があり、今回のアプローチに切り替えている。


D4-3 作文事例に基づいた児童の「書くこと」に関する学習傾向についての分析−小学四年生による紹介文・感想文を中心に− (pp.987-990) ○藤田彬, 田村直良 (横浜国大)

作文指導:一定の基準に沿って、全ての問題点に言及し、適切な助言を与える
先行研究:「こどもコーパス」、坂本によるコーパス
自動の多様な言語活動を俯瞰的に把握したい:幅広い学習状況作文の収集、網羅的かつ一般性の高い点検(添削)情報の付与
作文の点検:15名点検者
 具体例を交えながら点検方法の研修を済ませた国語教師経験者、研究室院生、塾講師等
 規準統一困難なので1編に対して2名の点検者が点検
  欄外に総括的な注釈/個別箇所への注釈/オプションとして総合評価(3段階絶対評価)
 電子コーパス化
  誤りはそのまま。判読難しいもの等は作業者判断により選択入力。
  点検タグ体系:基本タグ/機能コメントタグ/本文に付与されるタグ
   主観により変わるものか否かでtype属性=null、客観性のあるものはtype=e

naltoma: 似たようなケースだと想像するが、課題レポートチェックや論文指導についてのコーパス作成の際に気をつけることは何だろう?

Q: 一つの作文について複数の人が添削しているようだが、一致度/齟齬は?
A: 基本的な事項、段落分けとか接続詞とかについてはほぼ一致。それ以外は揺れが大きい。
Q: コーパスとしてはそれを統合する?
A: 別々に作成。
Q: 入れ子は良さそうだがクロスはどうする?
A: 問題。タグにIDを振ることになりそう。
Q: ドラスティックにタグの順序を入れ替えるとかなにか考えられない?
A: タグ変更、差し替えで対応できると思う。

Q: コーパスデザインする際に現場の先生からのフィードバックとか相談はしてるのか。
A: 現場の先生に見せるというコンセプトでは使っていなかった。NLP研究者向け。現場向けも意思気はしていて、総括的なコメントだけ見れば現場向けに役立つと思う。
Q: 作文指導者がどういう指示の元で書かせているかとかの記録はあるか?
A: ない。担任の先生が付けたコメントも手元にはない。


D4-4 中学理科教科書におけるテキストの時系列比較:学習指導要領との対応に着目して (pp.991-994) ○浅石卓真, 歌川光一, 中村由香 (東大)

教科書の「共通」性は不安定:学習指導要領改訂/出版社違い/選択教科
 例えば今の40代、50代が使った教科書における語彙量は5割程度(?)異なる
 観点1:重要な科学概念を軸とした構成 ->「少数の語彙を繰り返し使用して全体を記述する」と読み替えた
 観点2:応用的な/高度な内容の削減 ->「使われる語彙の減少」と読み替えた
 観点3:「活用」「探求」活動の充実 -> 「日常生活の関連語彙の増加」と読み替えた

naltoma: 関連箇所の明示や関連単元間の繋がり明示のためにはどうすれば良い?(単元なりの判定?)

Q: 大きい目的についての確認。指導要領にちゃんと基づいた教科書になっているかをチェックするため?
A: 一つはそのチェックもある。より上位で見ると、指導要領の基礎基本は原則として変わっておらず、どの観点で見た時の学力において上下があるかというのを見たかった。学力の上下は言い過ぎだが、教科書への反映のされ方を統一基準で分析した。どういう点が欠落しているかを指摘したかったというのが目的。

Q: 指導要領解説があり、そちらの方が細かく具体的に書かれていると思う。そちらの方がより向いているのでは?
A: 指導要領以外にも解説も見てみたが、より細分化して整理するということは今後考えている所。
Q: 学習指導要領は概念的なことなので、内容的な側面を見たいなら解説の方が向いていると思う。

Q: 調査対象が戦後に限られてるのは参照しやすさの問題? 戦前についても比較できると面白そう。また、体系性を重視するというよりは、検定などの方が今回の数字を左右していると思う。制度がこうなっているのではないか。韓国とか他国との比較でより面白そうな側面が見れそう。


D4-5 言語処理技術の統合的評価基盤としての大学入試問題 (pp.995-998) ○宮尾祐介 (NII), 川添愛 (津田塾大/NII), 松崎拓也 (東大), 横野光 (NII)

適切な「謎」の設定:人工頭脳プロジェクト「ロボットは東大に入れるか?」、オープンプラットフォーム
主要な研究テーマ
 形式表現への写像:数学はMathematicaに入力する表現形に変換できれば解ける
 知識を問う問題:含意関係認識 @NTCIR10_RITE
 オントロジーに基づく推論:定性的推論の実現(それぞれの科目のためのMathematica≒ドメインオントロジー推論)
 概念化・事例化:異なる抽象化レベルの間の橋渡し(国語、英語、倫理で良く見られる。e.g., 自我同一性についての具体的事例)
 文章の自然さの認識:対話理解、読解問題、文脈・談話の一貫性に関する様々な要素
 自然言語とプログラムの接続
問題タイプ分類
 数式/物理モデル/化学モデル/自然言語クエリ///
入出力はXML:文書構造、メタ情報、数式や表、問題の分類カテゴリ(正誤選択/人名/漢字/二次関数//)、後々は自動解析も
リソース
 コーパス、基盤システム、ベースラインシステムを公開予定

naltoma: 「100%合意のとれる正解がある」点は結果的に自然言語の中でも「ロジック」表現できるものに限定されていないか?(残された部分に「対話」の面白さがある?)

Q: 評価として成果が見やすいというのは同意するが、本当の自然言語を理解したいというところに少し繋がりが分からない。QAタスクは自然言語理解の究極的タスクの一つとかという話だが、単語抽出して云々という話に収束しがち。東大入試では全員が入れるわけでもなく、ある種の知識は問われている。その辺の繋がりは?
A: 同じような指摘は良くいただいている。大学入試最適化してしまうとQAシステムと同じような話に陥ってしまうと思う。今現時点での研究者間でのアグリーメントとしては、そういう最適化ではなく個別に考えていく。どうしても言語処理が進むためには知識にある程度踏み込んでいく必要がある。大学入試については評価されてる内容の質が異なると思い、QAシステムとは違う側面が出てくることを期待している。

Q: 機械に与える知識は教科書のようだが、解く時にはオンラインでWeb検索とかもする?
A: 個人的にはしなくていいと思っている。試験のために必要な知識はあまり多くない。常識はWeb検索で解決できるとは思えない。
Q: 教科書から必要な知識を取るという話をしてくると、何が必要かというところをちゃんとやらずに安易にWeb検索に行くとQAシステムみたいな話になると思う。
A: QA的なアプローチでは解けないが人間ならほぼ確実に解けるという問題設定を考えている。


D4-6 論文間参照タイプ判定の細分化に基づくサーベイ補助システムの構築 (pp.999-1002) ○小出寛史, 橋本陽平, 秦野福己, 韓東力 (日大)

論文収集・理解するタスクは非常に時間がかかる。論文同士の関係理解も大変
ある一つの論文を選定した時点で、その論文と参照論文との関係性を明らかにしたい
 参照タイプ6種類:歴史/類似/理論/研究手法/実験手法・データ/結果
 Ayaによる文間関係

naltoma: 論文には様々な論点が入り交じるが、どういう「関係」を見たいのか?
naltoma: 各参照論文との関係一覧が取れたとすると、そこから「対象論文」の中心話題やストーリーを推定することや、校正的な意味合いでの欠落部分推定などに近づけそう?
naltoma: 参照タイプはどのように決定したら良いか?(これで過不足ないか? 視点によっては違う見方が欲しくならないか? 極性付与ぐらいで十分だったり?)
naltoma: 正答率が40~50%と比較的まだ低いが、どのような誤答が見られたのか?

Q: 6つに分けた理由は? 結構似たようなものがあるようにも見えたが。
A: 先行研究での3つでは「論説根拠型/問題指摘型/その他」で実質2分類で観点が少ない。より詳細に見たかった。各参照毎に定義して分類している。歴史と類似研究の例だと、歴史では「直接関係ない論文」もありえるという観点で分けた。4人で意見を出し合って分けた結果。適切かどうかは要検討。
Q: 今聞いてても歴史と類似研究をどう分けて良いか判断困難に思えたので、一度分けてみてそれがコンセンサスが取れるかどうかを見ることで参照タイプを精査することも考えて見ると良いと思う。


D4-7 意見間の関係の可視化による意見交換の発散支援システム (pp.1003-1006) ○清水允文, 砂山渡 (広島市立大)

(タイトル変更?)予稿タイトル:意見の全体像の可視化による意見交換の発散支援

話し合いの場が設けられて設定されるテーマが対象
結論が約8個以内の選択肢から選ばれるテーマ
意思決定のための意見交換:発散フェーズ/収束フェーズ
 発散支援:選択肢間の関連度計算

naltoma: 意見交換を発散することを支援?ブレストとか?(それって意見交換?)
naltoma: 意見交換におけるどのような点について「発散」させたい?
naltoma: 選択肢の個数制限がある理由は? 悪影響が無い?
naltoma: KJ法的にはアイデアを出す段階では「関連を見ない」ことが重要だと思うが、そこを何らかの指標で関連度を見せてしまうことによる弊害は無いか?
naltoma: 収束も想定しているようだがAHPとか既存手法とどちらが良い?

Q: 発散を支援するということでブレスト的により多くの選択肢を出したいという時のようだが、具体的にどういうテーマでやってみた?
A: 選択肢が一つのジャンルで関連度が算出しやすいテーマで検証した。

Q: 可視化について効果の有無を確認したようだが、何もしないでテーマについて議論させた場合に自然と発散するかとか。可視化以前でもある程度コントロールされてる議論ではないか。放置してた場合と可視化外した場合との差は?
A: 視覚化パネルを外しただけではまだ制約があると考えられるので、何も使用していない場合との実験もやってみたい。

Q: 選択肢カードを使って議論を使っているが、そのカードには「広島城」とか書いてある?
A: 書かれてなくて、キューを与えるだけのカード。


D4-8 住民参画Webプラットフォームにおけるコンサーン・アセスメント支援機構(pp.1007-1010) ○白松俊, 大囿忠親, 新谷虎松 (名工大)

住民参画WebプラットフォームO2:今回は透明性、参画がターゲット
住民は「何が問題か」を知らないと参画できない:コンサーン・アセスメント
 ニュース記事・ツイートを地域毎に分類、出来事でクラスタリング
 情報構造化スキーマ:ドメインオントロジー(SOCIA)、LODデータセットの公開
 共有したコンサーンを活用した議論支援
実世界の出来事や地域にIDを振り、コンサーンの整理/共有のために活用したい
 地域・イベントを基点とした構造化
 記事クラスタをイベントとみなす

naltoma: 「イベント」の定義は?(後日になって解釈が付随して初めて共通認識になることも)
naltoma: クラスタリングでイベント同定する形だと「観点が大きく異なる記事」が漏れてしまわないか?(クラスタリング結果について評価をどうする?)
naltoma: 確信度のようなものは後々明確に判定可能なこともありえるが、バージョン管理は含まれている?別イベントとして新ID対応?

Q: 公共事業とかに関わる話で合意形成学とかを「インタレスト」に注目してやられていると思うが、コンサーンというのはどこから持ってきた?
A: コンセンサスが取れていないが、共同研究先ではタウンミーティング・パブリックコメントがコンサーンアセスメントのためにやられているという説明がなされている。
Q: 情報の見せ方にも工夫が必要かなと感じたが。
A: 現システムでは「何がコンサーンか分からない」という前提での提示だった。委員会では何を話すか決まっているという状況もあり、そういうケースでは適用できない。状況に応じて適用するインタフェースが必要。

Q: 地域の問題は大切だと思うが、例えば北大の人が集められてるのは本当に地域のデータ。今回の記事とかではどうなっている?
A: ニュースで密着した記事があるかは重要な観点。実際にそういう事例もあった。
Q: 効率の問題かもしれないが、地域のコミュニティ新聞とかに多く出てそうだが。
A: 一般的なニュース記事だけでは確かに困難だと思う。名古屋市議会のコンテンツも入れるとか考えている。


D4-9 OCRを用いた視線情報と閲覧テキストの言語的特徴の関連付け (pp.1011-1014) ○冨田恭平 (東大), 相澤彰子 (NII/東大), Martinez-Gomez Pascual, 陳琛 (東大), 原忠義 (NII), 狩野芳伸 (JST)

視線認識と自然言語処理の融合:ユーザの興味に応じた文書の自動要約/文章境界部分での視線の動き分析/等々
 問題点:単語が表示されている位置が分からない/視線検出装置の誤差で計測された視線が上下にズレている
 どのように単語の画面上での位置と言語的特徴を特定するか(誤差への対処は今後の課題)
興味:「読みやすさ」「読み方」の評価手段

naltoma: タイトルからは良いと思うが「スクロールバー」等を除外すると興味として話されていた「レイアウトを考慮した読みやすさ」とかが抜け落ちてしまうように思う。どのように体系化したら良いだろうか?

Q: Webページを見てる時を考えたとき、埋め込まれているタグが処理されたものを見ている。テキストのレンダリングまで含めて、現在のウィンドウの幅とかも含めてマッチング取る必要がありそうだが、問題にならないか。
A: 今回やった例に関しては問題無いが、そこもやるとすると確かに問題になる。
Q: フォントは固定幅?
A: ではない。
Q: フォントサイズは?
A: ノイズを含めることを考慮して9ポイント。

Q: タイトルを見ると視線情報とあるが、視線情報そのものについては眼鏡かけるようなもので対応して、今回の話はスクリーン情報だったように思う。ズレのような話があったが、それはこれから?
A: 今後の課題。


P3:ポスター(3)   3月16日(金) 13:00-14:40 講堂小ホール


P3-4 数量表現を伴う文における含意関係認識の課題分析 (pp.1087-1090) ○成澤克麻, 渡邉陽太郎, 水野淳太, 岡崎直観, 乾健太郎 (東北大)

数量表現される文とは「ほげほげの売り上げが15%ほど伸びた」「ほげほげの売り上げが伸びた」みたいなもの。
実際にはいろんなケースがあってそこの分析が足りてないから進展が無いんじゃないかという立場でケース分類してみたという話。
まだ検証数が少ないようだけど、「100人が大勢が」「日本、中国、韓国三国」とか特徴的なケースがいくつか見れてきているらしい。
含意関係認識とは直接関係ないけど、情報編纂というキーワードで新聞から数値表現伴うのを抽出->グラフ化とかって話が確かあって、そっちの進展具合はどんなものなんだろう。


P3-5 時間表現と固有表現を標識とするウィキペディアからの言い換え知識獲得(pp.1091-1094) ○市川浩丈, 松崎拓也 (東大), 宮尾祐介 (NII)

言い換え知識を自動収集するために、より信頼度が高いと思われる歴史的イベントをターゲットにして収集するという話っぽい。
古ければ古いほど確からしいところも確認しているらしい。


P3-7 漸進的な日本語解析において出力する係り受け構造とその利用 (pp.1098-1101) ○大野誠寛, 松原茂樹 (名大)

とても聞きたかったんだけどタイミング合わず。
任意のタイミング、例えば話してる途中だとかでも係り受け構造を知りたい、というような話らしい。
昨日の招待講演であったプロソディみたいなのものは考慮してないようだけど、文節単位で入力される都度解析結果を出せるようにしてるっぽい。


P3-11 冗長な文の機械的分析と機械的検出 (pp.1114-1117) ○都藤俊輔, 村田真樹, 徳久雅人 (鳥取大), 馬青 (龍谷大)

冗長な文における「冗長な単語(とは限らないかもしれない)」を高い精度で判定できるようにモデル構築できましたという話。
「それでは次に」とかいろんなケースがありえるようだけど、分析したのがどのぐらいカバーしてるのかが気になる。


P3-13 RDBと既存のアノテーションツールによる統合的コーパス開発環境 (pp.1122-1125) ○伝康晴 (千葉大), 小磯花絵 (国語研)

将来的には話し言葉やマルチモーダルを見据えた汎用性のあるアノテーションを目指しているらしい。
汎用性求めすぎると使い難そうなんだけど、それは一旦体系化できれば絞り込んで使えば良いだけというスタンスなのかしら。


P3-24 コールセンタ対話における話者の知識量推定 (pp.1166-1169) ○宮崎千明, 東中竜一郎, 牧野俊朗, 松尾義博 (NTT)

テキストベースで対話文全体を用いた特徴ベクトル作って「会話対象に関する知識レベルを大小の2値判定」する話らしい。
そのぐらいの大雑把な分類であれば音声自体(話し方)に「知識レベルが小さい人らしさ」が結構含まれていそうなんだけど、そこは使わないのかそこで足りてないことをやろうとしているのかは良く分からず。
テキスト処理するなら、「会話対象」自体が時系列で推移するものだから「会話対象」をクラス分けして個別に判定するようにした方が良さそうな気もする。


P3-29 比喩的関係を利用した検索クエリ拡張手法 (pp.1184-1187) ○久保真哉, 桝井文人 (北見工大), 福本淳一 (立命館大)

入力された単語Aについて「**のようなA」というような比喩表現における属性を使ってうまく推論できないかという話らしい。
面白そうな着眼点ではあるのだけど、この考え方単体ではあまり上手くいってない?


P3-30 評価視点別レビュー要約のための重要文候補抽出 (pp.1188-1191) ○小池惇爾, 福本文代, 松吉俊, 稲葉脩太 (山梨大)

私の想定と異なり、「評価視点」というのが「レビュー項目」という定義。
別発表でも同じような定義で「評価者/ユーザの視点」というのを定義してタイトルに使ってるのがあるようなんだけど、私の解釈がおかしいだけで一般的なのかな?


P3-31 不具合事例文書からの製品・部品に関する因果関係抽出手法の検討 (pp.1192-1195) ○大森信行, 森辰則 (横浜国大)

先行研究の「実体語」抽出を8割程度で実現出来ているらしく、それを用いて「原因」や「失敗事例」が含まれる単文を自動抽出するという話。
ソフトウェア的な、例えばUIとかについても「ボタン」みたいなものは同じ枠組みでやれるというか区別できなさそうとのこと。
逆にその「ボタン」みたいなものじゃない点についてどうなんだろう。
「入力できない」「スクロールできない」とかいろいろ「実体語」が入ってなさそうな表現が多くなりそうな気がするんだけど。


P3-32 文書内のトピック数を考慮したトピック追跡の試み (pp.1196-1199) ○芹澤翠, 小林一郎 (お茶大)

これも話聞きたかったんだけどタイミング悪かったのか担当者が見つからず。
予稿見ると、文書には複数トピックが含まれるのが一般的なので、トピック単位で追跡しようという話。
ただトピックはクラスタリング抽出するらしい。
先行研究と違ってトピック内容の類似度に着目してトピック数を決定しているということだけど、どうだったんだろう。

ここ数日の発表通して、トピックもエンティティも名詞らしさも言いたいことは「何となく分かる」だけにもやもや感高し。


A5:テーマセッション3 : 災害時における言語情報処理(2)   3月16日(金) 15:00-18:00 603講義室  座長: グラム・ニュービッグ(京大)


A5-1 震災を題材としたニュース・ブログ間の話題の相関と遷移の分析 (pp.1224-1227) ○小池大地, 横本大輔, 牧田健作, 鈴木浩子, 宇津呂武仁 (筑波大), 河田容英 (ナビックス), 吉岡真治 (北大), 福原知宏 (産総研)

分析対象データ
 ニュース記事合計14万件、震災関連7単語(人手選択)を含む2.5万件
 ブログ記事同期間、3.5万件
  トピック&日付という軸で傾向分析
LDA
 トピックznは語wの確率分布によって特徴付けられる
 文書dはトピックznの確率分布によって特徴付けられる
文書をトピックに分類
 文書毎に最大確率トピックとして分類
記事を日付に分類

naltoma: 話題の定義は?(あるイベントについて側面を知りたいとかは?)
naltoma: 「東日本大震災に関連したニュース・ブログ記事集合」はどう収集した?(関連とは? そこに主観なりバイアス入っていない?)
naltoma: 1記事に複数トピックが含まれることが多々あると思うが、今回は記事単位での分析?
naltoma: 分析目的によるが、ユーザが望む分析が行えるのか?(どういう分析をしたくてLDAでトピック分類した?)
naltoma: 避難地域と避難者を違うという判定(?)するのはもの凄く主観性が高く感じるが、どのような評価をしたいのか?

Q: 7つキーワードは全て原発に関するもののようだが、大震災とかそれ以外のキーワードはやってみた?
A: 原発寄りになっている部分はあると思う。これらの単語でどれぐらい集まるかやってみて、3.5万件のボリュームが集まったのでそのまま分析に移ってみた。
Q: トピックと言われているのはLDAで推定されたトピックのようだが、ブログ記事と新聞記事における書き方の違いもある。二つの軸として、つまりトピックと書き方の軸。それを分けて分析するとよりトピックっぽいものが出てきそうに思う。
A: トピックによってはブログ特有の単語が出てくることもあり、そういうのは消すとか。何かしら特徴を捉えるようなことをしてLDAにかけてみることが重要だと思う。

Q: タイトルでは遷移の分析とある。時間変化が見れるということでニュース記事等を選んだと思うが、どういう遷移が見られたのか。
A: 発表では省いたが、例えば津波等のトピックは3月中に盛り上がって減るなどの傾向が見られた。震災地でのペットの行方不明に関するブログや、保育所が書いてるブログ記事など、そういうのは日付に関係なく一定数集まっているなどが観察できた。
Q: 時間遷移を見るとき、トピックに分類して時系列上に配置するというのもあると思うが、時間区間に区切ってその区間毎にトピックを見るという方法もありそう。今回の提案手法では端の方にあるようなものが特徴的として出てきそうな気もするが。
A: 記事件数が集まっていないものはあまりトピックらしくないものが集まっているのがあったが、区間区切りにも問題点があるので今回はこのようなアプローチをとった。


A5-2 大規模災害時におけるソーシャルメディアの変化 (pp.1228-1231) ○榊剛史 (東大), 鳥海不二夫 (名大), 篠田孝祐 (理研), 風間一洋 (NTT), 栗原聡 (阪大), 野田五十樹 (産総研), 丸井淳己, 松尾豊 (東大)

「東日本大震災 情報行動調査報告書(2011.09)」による震災地でのアンケート(ソーシャルメディアの活用度合い)
本当に活用されたのか? 何が呟かれているのか?
ツイートを通して震災前後の事象・変化をどの程度観測できるかを検証
 130万ユーザ->毎日5回以上ツイートしてるユーザ約20万
 通常時からの逸脱(増加/減少)によってある程度観測可能

naltoma: 通常時からの逸脱である程度観測できるという話だが、その「通常時」をどう捉えるか次第で「取りのがしているイベント」も多々ありそうな気が。ユーザ数+location以外の時系列データとしてどのようなものが考えられるか?(例えば連続ツイートするユーザ数の変化? ツイート間隔? 極性? 【拡散希望】とかの特定語?)

Q: 上がる所下がる所、ユーザ切り分けとか見ていくとある程度見れそうだという話が例示されていたが、どう使っていけば良いのか。今回の例では説明がつきそうな所の例示だったように思う。何となくドロップがあって、とかそういう状況での新しい知見が得られるとかあったのか。
A: 違う例だが、ユーザのリプライ・平均投稿数をみたが平均数は減っている。一日に数百件ツイートするのはbotが多かった。あまり意味のある知見ではないが。まだまだ大雑把な検証のみ。

Q: 毎日5回以上投稿してるユーザに着目するのはどのような理由で?
A: 最終的には某かの有益な情報を抽出したい。今回の制約は、今回のトラブルでもツイートしやすいだろうという仮定で加えた。
Q: 震災の前にあまり投稿しないが、後には投稿するというような所もありそう。
A: 今回はそこは対象にしていなかったが、今後見ていきたい。

Q: 東京で最初の一日は避難、次の日は停電とかの例が予稿にあるが。
A: まだちゃんと分析できていないが、形容詞・動詞とかも見て見ると面白い側面がある。最初ネガティブなのが多かったのが少しずつポジティブなのが増えてくるとかも少し見えてきている部分がある。


A5-3 安否情報ツイートコーパスの詳細分析とアノテーションに関する一考察 (pp.1232-1235) ○村上浩司, 萩原正人 (楽天技研)

ANPI_NLP:安否情報タスク
 楽天のものでも誰のものでもないので好き勝手にやって欲しい
 ハッシュタグ: #anpi #hi-nan #j_j=helpme #save_[地名] など
 人手アノテーション
 トピック分類/人名・組織名に特化した固有表現抽出
時間軸からの分析
 タグの比率推移
  地震発生から数時間:「その他」多数
  3/12朝から:行方不明者、安否情報といった「要請」が増加。固有名詞、人名が増える。
  3/13: ツイート半分以上に地名、人名が載っている
  プロジェクト開始したのは3/14。一番検出すべき情報「要請」は3/12朝には既に出始めていた。
その他分析:全体の72%
 情報提供/非日本語ツイート/安否情報/ハッシュタグ告知/その他
  外国語(U)タグ付きであるべき
  安否情報(I/L/P)付くべき
   頑張ったはずだが結構漏れがあった
 情報提供:インフラ関連/避難・避難所/救援活動/交通機関などなど
  情報の構造化、情報抽出が必要
情報の信頼性判断:憶測/伝聞/引用/事実性/信頼性
コーパスどうするのか

naltoma: 直接的なコーパス利用については、そういうのを管理する国レベルor国際レベルでの組織をどうにかしてホゲホゲするという運動まで持っていかないと難しい話だったりするのかな(妄想)。
naltoma: タスク毎に独立して最適化するというアプローチで構わないとは思うが、頭脳プロジェクトみたいな形で統合しやすい形で設計できないと後々困りそう。

Q: 救援活動とかが出てきたが、取れると嬉しそうだが、もともとニュースとして出てそれのコピペとして流れていて、そこへの誘導をできると良いのでは。
A: ツイッターだけではなく、広いソースから取るというのはとても重要。ニュースから取ってくるのも情報の信頼性の観点からは重要。

Q: こういう情報について基礎研究でもやりたいと考えた時に、sinsai.infoが人手でやっていた。殆どゴミばっかりなのでめげてしまってボランティア辞めてしまう人が多いという問題があった。早めに気づいて一緒にやれたら、ほんの簡単な情報抽出だけでもできたら良かったのにと悔しい想いをした。余裕が無かったのか、連絡取り合っていたのか。
A: sinsai.infoさんとは連絡を取っていて、一緒にやりたいという話が届いていた。ただその時点では何をしているのかも分からず、何をしたら良いかということについてリプライが来ず、そこで途絶えてしまったというのがある。リスト提供するということはあった。

Q: アノテーションの粒度が低いという話だったが、ガイドライン的なものはある?
A: ANPI_NLPのWikiには残っている。凄いざっくりとしたイントロになっている。
Q: 高めるような話はある?
A: 多分25分後ぐらいにそういう話が。


A5-4 「東日本大震災関連の救助要請情報抽出サイト」構築と救助活動について(pp.1236-1239) ○相田慎 (豊橋技科大), 新堂安孝 (フリー), 内山将夫 (NICT)

東日本震災支援 #99japan
救助要請情報抽出して、実際使ってもらったという話
初期のTwitter情報:報道新聞よりもきめ細かい情報があった(主観。デマもある)
救助要請を拡散しようという動きが多々あったが、実際通報されなければ意味が無い
 Twitterから救助要請の一次情報」だけを表示する:大量表示(閲覧者に判定委ねる)+フィルタリング
 二次情報は状況報告・感想が主と仮定
 住所情報、ライフライン未復旧/安否情報に起因する語
 非救助要請情報:過去のデマに含まれていた固有名詞/報道公式アカウント(通報済みの可能性高い)/有名人など/放射能関連の語
 「1500ったー」から収集
 判定キーを抽出し、同値類ツイート
今後の課題
 取得し続けているログ(2千万程度)から現在のニーズ分析
 適応的な震災復興支援系構築
 活動記録を正式に残す(論文など)

naltoma: フィルタリングによって逆に漏れてしまったものもありそうだが、漏れ具合のチェックはできそう?

Q: こういういろいろ努力がされているがまだまだあまり知られていない。これは本質的な問題だと思う。それと、今回の例では大量の件数を表示しているが、どう見せた方が良かったかとかの知見があれば。
A: もう人グループぐらい、NTT docomo研究所だったかでツイートから形態素解析して地名とかを見やすくするというようなサイトを作られた人がいた。

Q: 81キーワードはどういう風に発見したのか。
A: その当時被害が大きそうだと思った所、沿岸部とかを持ってきた。
Q: ツイートを見て考えたというわけではない?
A: 最初は #j_j_helpme だけで良いかと思ったが、漏れが多いということで増やすことを考えた。ただしノイズが増えるので、頻出する地名を加えていった。


全体討議

誤解語釈が多々あると思います。ご注意ください。
村上さん・ニュービッグさんらのプレゼン資料公開されるようなら後でリンク張ります。


楽天・村上浩司さんによる問題提起、その後の議論

告知:「不自然言語処理 枠にはまらない言語の処理」〆切延長のお知らせ: 3/20->4/27

一緒に考えたいこと
 コーパスが必要な言語処理
  何をするにもまずはコーパスが必要:事例の豊富さ/ただのデータでも良いがアノテートされてると嬉しい
 安否情報ツイートコーパス:6万以上のツイート
  しかるべき手順のもと、何とか公開できないか?
   個人情報保護法:非常時から定常時へ。震災から1年経ち、簡単に公開できない
   Twitter社との権利問題:再配布禁止?アノテーションは非合法?
 どうすれば公開できるか?
  生死というナーバスな情報=リスク
  京大コーパスと同様に扱う:ツイートIDとタグ情報だけ公開
  本当に使われる可能性はあるのか??
 公開できるならば
  問題点:間違いが多いので見直し必須。見直すならタグ仕様再設計、マニュアル整備。継続的なデータ蓄積。質の担保。
  汗かいて仕事してくれる人、団体はいるのか?
 前に進むために
  データが必要な人、団体はあるのか?
  データの利用に関わらず図災害NLP?
   災害が起こってからやること/起こる前にやること:タスクフォース?
 災害時のタスクサイクル
  課題は大きく分けて3種類
   (1) 災害時:準備した技術の適用
   (2) これから平常時側でやるべきこと:適用結果の分析/タスク再設定/必要情報同定/技術研究開発
   (3) より大きな枠組み(言語処理屋さん以外)での活動

Q: いきなりタグ付きコーパス必要かと言われても良く分からない。タスク再設定というのがとても重要だと感じていて、出発点はそこでは。縛り次第にもよってはTwitter社も折れてくれるかもしれないし折れてくれないかもしれない。
Q: Twitter社のデータを誰かが配るというのはほぼ無理?
A: リーガルな情報については良く分からないので確固たる答えは出せない。プライベートな情報を含むので簡単な再配布は難しいのではないかという理解。特に災害とかは重要度が高いトピックだと思うので、商用ではなくて災害向けに作ったものという特別な利用規約に持っていけるようにできたら、社会にとっても会社にとっても嬉しい姿だと思う。
Q: Twitterに直接問い合わせれば良い?
A: はい。

Q: 2つパラレルにやった方が良いと思う。IDやURLベースでのプランとリーガル調整プラン。ID側/URL側は多分大丈夫。リーガル側はこれから規約変えるというのは相当大変だと思う。

Q: どういうのをやって欲しいとかいう意見はあるか。
A: 基本的に対象とする問題が普通のNLPと違っていて、ダイレクトに社会にフィードバックがかえる。こういうのをやりたいかという動機が重要で、そうでなければ持続性が持たないのでは。
A: 個人的には猛烈にやりたくて燃え上がっている。単に災害で世の中に役立つという大義名分だけでは難しい側面もあると思う。ポイントが別にもあって、災害時にはガソリンが無くなるとは誰も思っていなかった/原発壊れる/計画停電などなど、予測できなかったイベントが多かった。どういう情報を抜いてくるかが分からない状況下で「抜いてくる」というタスクは一つ大きな面白いタスクだと思う。 予想外のニュースが来た時にそれをテンプレートとして用意ドンでタスク化するとか。 二つ目は、その情報だけを取り出してくる、フィルタリングするという話。テンプレートを何分で埋めれるかというタスク。もやっとしているところはあるが、タスク設定。 臨場感もあるし、やることで見えてくる知見もあるのでは。
Q: 災害ツイートコーパスがないとできないことと、そうでないことはあるか。その例ではそれがなくても練習はできなくはないのでは? そのコーパスじゃないとやれないことは何?
A: 災害時だとRTのされ方とかは違うかなというのはるかも。そうじゃないかもしれないが。それ以外の時でも似たようなことができるのか、災害の時でも使えそうかという一段を挟む必要はあると思う。強い理由が無ければ災害時の設定/コーパスを使うのは必要だと思う。慎重に進める必要はある。
A: 何か起こった時に何か作れるかというのは確かにそう。ANPI_NLP始まった時は何も決まっていなかった。方法論はあれこれあるかもしれないが、それまで無かった状況下/イベントに対する方法論というのはあって良いと思う。
A: 人工知能学会で災害基盤構築という話があって、そことも協調していく必要性があると思う。
A: 私はコーパス欲しい。公開できないとしても、凍結してたのが解凍して使えるようになるとか。災害時に人名なり場所なりが取れるソフトがあると、次回に活かすことでさらに一段上にいけると思う。辞書なりはこれから貯めていけば。

Q: ANPI_NLPにもいろんな情報があって、人名辞書提供して頂いたりとか共有する形になっているのもいろいろある。パッケージ化してドキュメンテーション付けておいておくのはできそう。

A: NLPを使ってというよりももっと大きな枠組みで考えたい。大きなプラットフォームに載ってNLP使っていくというのが本筋に思う。災害に向けてどう貢献できるかという点ではより大きな視点で。

A: 災害に対して一般的に社会では避難訓練が行われる。NLPでもTwitter使って何かしら情報見つけるということだが、いつ来るか分からないものに対して素振りだけしててもだらけてしまいそう。身を引き締めるものがあると。

A: 何か役に立つというのはとても難しく、sinsai.infoで求めているものがあったができなかったとか。他にも呟くことで送り込もうとかエンジン作ったが、アプリ作ってくれる会社が忙しくてできなかった。 役に立ったということを利用者から声が届いたということを共有できたのは良かった。 普段から使えるものを作ることが大切では。迷子とか電車付近で倒れてるとかいうのが呟かれているかもしれない。普段から使えるものを作り込む事を考えて動く。

Q: 研究普通にしてるとまともに動くよりは結果さえ出れば良いという側面が確かにある。不特定多数が落ちずに使えるものを、動くものをちゃんと作るというのは確かに重要。

naltoma: 個人情報云々等で直接的にデータを使えない場合、検証するためのプラットフォームとして、時間&場所を加味した大規模なマルチエージェントシステム型シミュレーションなりで「災害時のマイクロブログストリーム/マスメディア報道/公共機関対応」みたいなのをひっくるめて再現/近似できると嬉しい? 表記揺れとか多様な人間モデルとかも盛りまくりで何が必要か自体の分析からだと思うけど。災害初期/中期/後期とか何かしら状況設定して特定状況毎に切り分けても良いかもしれないが。
naltoma: 後で俯瞰するようなスタンスではなく「今ホゲホゲこういうのに関するものを見たい/そのある特定側面を見たい/etc.」というようなタスクを体系化できるのかな。
naltoma: 調べたい/抽出したい対象というのがエンティティとかイベントとかトピックみたいな言葉で説明されることが多い気がするが、それらを真面目に分析して体系化する必要あり? そんなの無視して「時間軸+α」みたいな形で絶対的な軸だけを中心にして機能語/実体語/etc.とかを横断抽出するみたいなアプローチもあり得そうではある。


京大・グラム・ニュービッグさんによるサマリ

災害時における言語情報処理ロードマップを作ってみた。平常時準備->災害時対応->災害後サポート。普段から使えるもの。ML作ってみた。
 日本語ML:URL
 国際ML:URL
平常時/災害時/災害後サポート各ステージでのタスク。

A: 分野横断的な連携をその日や翌日とかのタイミングでできるような場ができてると良いと思う。
Q: 良いとは思うが、当日以降になると忙しくて困難かもしれない。
A: それはその通りだが、そういうことがやれる対応をする。

A: 災害後のサポートはとても重要だと思う。被災地終われてその後何年もメンタリティのケア等を背負う必要がある。NLPに何がやれるかはまだ分からないが、非常に大きなインパクトがあると思う。
A: Hope Japanという放射線関連のプロジェクトをやってるが、とにかくデマが多い。そしてデマを信じている人も多い。放射線とかに詳しい物理学者とか医学者とかいるが、その人向けにTwitterから得られた情報を見せて、その方にデマ真偽判定や分からないといった分類をお願いするような。言語処理の枠組みとしてそういう連携ができれば、アノテートされたデータがとれる側面もあって嬉しいのでは。

A: 頑張りましょう!

言語処理学会第18回年次大会(NLP2012) 2日目レポート

木曜日, 3月 15th, 2012

自然言語処理学会第18回年次大会(NLP2012)本会議2日目」に参加してきました。

2日目はセッションが1並列で、与儀さんが発表するので自動的に確定。
ということで2日目に参加したプログラムは次の通りです。

 ・セッション3: A3: テーマセッション4: Twitterと言語処理2012
 ・招待講演1: “Active Objects: An Entity-Centric Search Experience”
 ・招待講演2: 「障害者・高齢者と対話のことば」
 ・ポスターセッション: P2: ポスター(2)

なお、ポスターセッションは初日同様の賑わいで遠目に見たり話を横耳で聞いたりしたのが殆どなので、変な解釈が多いかもしれません。

以下、その参加メモになります。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。

[ 編集情報 ]
[2012-03-21, 13:30] A3-1について、発表者より関連情報について補足頂けたので、追加しました。


<目次>
A3: テーマセッション4: Twitterと言語処理2012

招待講演1: Active Objects: An Entity-Centric Search Experience (p.1)
招待講演2: 障害者・高齢者と対話のことば (p.2)

P2: ポスター(2)


A3:テーマセッション4 : Twitterと言語処理2012   3月15日(木) 9:00-12:00 603講義室  座長: 鍜治伸裕(東大)


A3-1 極大部分文字列を使った twitter 言語判定 ○中谷秀洋 (サイボウズ・ラボ)

入力テキストの記述言語を推定:多くの手法が3-gramモデル採用(十分長い&低ノイズに対して99%以上の精度)
ツイート判定では90~95%:テキスト長の短さ(3-gramでは僅かな素性のみ)。ノイズの多さ(正書法から外れた表現が頻出)。
先行研究: 3-gramベースでグラフ化した素性で96%(6言語)
素性を増やすには
 nを増やせば素性は増える。ただしO(文字列長^2)
 全ての部分文字列を考慮した分処分類
 極大部分文字列モデル+∞-gramモデル+ノイズ除去(言語問わず出現するもの)+正規化
  空でない部分文字列の間に、ある種の「包含関係」(半順序)
  極大部分文字列ロジスティック回帰=∞-gramロジスティック回帰

naltoma: 文字数少ないと判定失敗しがちだと思うが、最低文字数としてはどのぐらいないと判定が困難?(言語毎に異なりそうだが)

Q: ラテン語のような難しい例に比べると、日本語判定は結構簡単?
A: ひらがなが固有文字で頻出するので比較的簡単。ただし新聞見出し文字のような短いテキストだと漢字が多くで誤判定されることも。

[ @shuyo さんから頂いた後日談 ]


A3-2 Twitterを利用した評価極性辞書の自動拡張 ○鳥倉広大, 小町守, 松本裕治 (NAIST)

評価極性辞書
 単語、コロケーション等のフレーズ:フレーズに対して極性が付与。辞書参照して極性判断。
 Twitter特化の評価極性辞書:コロケーションに対する極性/極性を実数値
既存の評価表現辞書をシードとした共起チェック+極性を付与したコロケーションをシードとして再チェック+収束までに3回以上出現したら辞書登録
クリーニング:bot対策(1アカウントからは1回カウント、同一内容IDは削除)
仮定:逆接の接続詞がある場合、主節に主張が含まれる。連投ツイート中で感情が変わることはない。
ベースとなる辞書に基づいた収集で、ポジティブに比べてネガティブが2倍。ネガティブ割合ツイート多し。
係受以外のコロケーションの取り方検討

naltoma: 収集漏れがどのぐらいあった? 収集できた中での誤り(極性誤り、無関係)はどんな特徴があった?
naltoma: 「嫌み」みたいな遠回しな表現で極性が異なる表現を書くようなこともありそうだが、そういうのは数が少ないので問題にならない?

Q: 単語ではなく名詞と述語(?)のコロケーションをとってるようだが、悪い側面として「取れてきたものが判別に使う時に情報が特定過ぎて適用範囲が狭い」こともありそう。どう考えるか。
A: そういう面はある。単語だけで取る場合のメリットは無視できない。そちらのアプローチも検討すべきだと思う。

Q: 同一ツイートじゃなくて連投で見たということだが、5分で判定すると決めた理由は? また、連投の中にも明示的に感情が変わってるという例がなかったか。
A: 連投ツイート中の感情が変わったかように見られるものは無かった。5,10分,,等いくつか試したが、それほど有為な差は見られなかった。

Q: IBMの金山さんも近いと思うので、比較して見ると良いかと。


A3-3 行政に関するSNS上のコメントの自動分類 ○冨永裕太, 難波英嗣, 竹澤寿幸 (広島市立大)

例:ニュージーランド南部地震でのクライストチャーチ市の復興プロジェクト: “Share an Idea”
例:「アジアのリーダー都市ふくおか!プロジェクト」
 7カテゴリにSVM分類:Tweetなど短文問題
  Web等で配布されてるマニフェスト(手掛かり語)を利用:コメント語句+カテゴリ毎の手掛かり語の有無
  複数カテゴリで重複する言葉は手掛かり語として採用しない
問題点
 学習データに出現しない単語の存在
 手掛かり語とコメント内の語句との一致・不一致

naltoma: 「行政分野に関するSNS」に特化した特徴・特性は?
naltoma: 良くも悪くも手掛かり語とするマニフェストの影響が強すぎない?(他情報源は無い?)
naltoma: ツイートを対象とする場合、「ふくおか!プロジェクト」に関連したツイートであるか否かはどのように判断?
naltoma: 複数カテゴリに跨がるラベル付与ではない?

Q: カテゴリが7つあったが、どのように決めたのか。
A: プロジェクトで集まったコメントも参照したが、福岡市の部局構成も参考にした。
Q: 部局の観点で決めると誰が喜ぶ? カテゴリを作る観点が統一されていないように感じた。誰が分類した時に嬉しいという想定?
A: 今回は行政職員がコメント内から自分の部局に関連するものを効率良く見ることを想定。

Q: 市民の声なので非常にセンシティブだと思う。精度向上を達成したというがまだ7割。各部局に渡すとしても半分程度間違ってるものが来て嬉しいのか。半分近く間違ってる集計データを見せられた市民はどう感じるのか。分析方法や手法を工夫してかなりの精度を追求された方が良いのでは。今やられている単語集合で分類器をやるという方法はちょっと合わないような。使い方、どういう応用を考えているかの問題だとは思う。
A: 環境の部局の人が福祉の話を聞いてもあまり意味が無いので、というような観点で考えていた。
Q: 行政の人もそういう想定/ニーズがあった? 研究者の勝手な思い込み?


A3-4 国会議員のツイッター分類とその応用 ○東宏一, 掛谷英紀 (筑波大)

一般市民が使うことを想定。例えば国政選挙でどの政治家に投票すれば良いか?
投票支援の例:VoteMatch。ただし課題あり:マニフェスト・候補者へのアンケート等が選挙期間情報のみ。同じ党内でも政治信条の違いを考慮していない。
各議員が継続的に発信している情報を元に、統計的な分析により議員特徴を把握したい。
 最大エントロピー法による議員の分類+SOMによる議員マップ出力
 今回は原発問題を対象に実験
  原発問題関連キーワード749個+日本語評価極性辞書

naltoma: トピックとして原発問題を選んだようだが、システムにへの入力は何?
naltoma: 原発問題時の関連語辞書を手動生成しているが、これに依存したバイアスが問題にならないか?
naltoma: 主張が変化することもあるが、そのような推移や変化を捉えることは可能か?
naltoma: 場合によっては、政治が対象なら「何派なのか、どんな人と良くつるんでいるか」といった側面などを重要視することもありそう。様々な視点がありえそうだが、今後どのような視点の導入を想定しているか。

Q: 議員の立場を明らかにするために原発問題を扱って推進/反対という観点から見たようだが、どちらとも言えないという議員が多かった? 深層ではどう思っているというのをあぶり出すという効果はある?
A: そういう効果を期待してる側面はある。どちらとも言えないが多かった点については、2カテゴリに分けたことに問題があると考えている。明確な立場を明確にしない議員が少なくない。反対派の方は特徴が強く出ている。

Q: 手法1ではリンク情報は使っていない?
A: リンクが切れてるものが多かったので今回は使用していない。
Q: 立場を見る場合にはリンクが有効という事例が多いので、そちらも検討して欲しい。もう一つ、教師信号を人手手つくっているが、基本的に教師信号を作るなら人手で作る方が早いというのが結論にもなりがち。
A: その通りだと思う。今回やりたかったのは、人手で作成するとどうしても主観が入ってしまう。そこをどうにか除外したいという気持ちがある。


A3-5 ソーシャルメディアによる風邪流行の予測 ○谷田和章, 荒牧英治, 佐藤一誠, 吉田稔, 中川裕志 (東大)

Twitterから流行を推定・予測したい、予防に繋がる
正解データ:薬局の風邪薬販売量。ただし1,2ヶ月遅延。
ツイートや気象情報から風邪薬販売量推測
 ベースライン:単語(e.g., 風邪)からの推測
 重回帰による推測(複数単語):どうやって単語を選ぶ?(人手選択の事例が多い)
説明変数とする単語を自動選択:回帰の風邪薬販売量との相関が強くなるように(指数時間)
 探索法(貪欲法,ビームサーチ)+選択指標(mRMR,MMR)

naltoma: ツイートをセンサーと看做すと、信憑性、遅延、欠落など様々な要因が絡みそうだが、

Q: 自己回帰もかなり性能良さそう。
A: 訓練期間だけを見ていくと単語加えていくと上がるが、テスト期間ではノイズが入って悪くなることもあった。ノイズ次第だとは思う。
Q: 今回の実験では一つのRだけを比較しているようだが、偶然ということは無いか?
A: 直感的に見ると高い精度を得られていると思える。
Q: 「と、白菜」あたりが出てくるのは何故?
A: 「白菜」は冬にでてくるワード。「と」はノイズなワードだが、単純に除くと良い悪いというものではなさそう(?)。

Q: 薬販売量という非リアルタイムなデータと比べて、どのぐらい早く流行を予測できそうか。また、ユーザからすると「いつ頃はやっている」というのは既知の情報でもある。局所的な所でも予測できる?
A: 販売量は月末公開なのでツイートからの予測ではリアルタイムな分それだけ早く予測できる。局所的なものについてもできると思う。


A3-6 2ツイートを用いた対話モデルの構築 ○東中竜一郎 (NTT), 川前徳章 (NTTコムウェア), 貞光九月, 南泰浩, 目黒豊美, 堂坂浩二, 稲垣博人 (NTT)

リプライ等、大量のツイッターデータから対話モデルを作りたい:例 [Ritter 2010]
対象:in_reply_toで繋がってるもの。
対話モデルな人からすると数十発話が続くことが多いが、ツイッターだと2つイートが多い。Ritterらは3ツイート以上のみ使用。
大きなボリュームを占める2ツイートから対話モデルを構築
 無限HMM+クラスタリング(単語分布が似ているツイートを同じ状態に分類)
 対話250万ツイートから、食事/スポーツ関連のみを対象

naltoma: 対話モデルは「全体」を説明するのに良さそうだが、癖のようなものに分割してモデル化できるか?(コーパスを分割するしか無い? コーパス自体のバイアス具合を評価?)

Q: 性能を決めるのはクラスタリングだと感じた。パラメータも含めてどういう試行錯誤されたのか。見られた感触や評価もあれば。
A: パラメータは先行研究に従った。上位5千単語。内容語とかに限定せず全単語を対象にしているのが一つのポイントだと思う。そのお陰で顔文字クラスタ等も作れた。評価は難しいが、現時点で見ているのは他のクラスタで現れなかった単語リストを確認している。


A3-7 Twitter上で行われる議論構造可視化のための段階的クラスタリングに関する検討 ○与儀涼子, 當間愛晃, 赤嶺有平, 山田孝治, 遠藤聡志 (琉球大)

Q: ドメインにどれぐらい依存している? 別データにアプライするのが今後の課題のようだが、どれぐらい適用できそうかという見積もりについての感触があれば。
A: 大学内という閉じたデータが対象だが、別ツイートデータとしてTEDも使って見ている。この場合、ネットからの参加人数と現場での参加人数の人数比が効いてきそう。tsudaるツイートの時間遅延も影響が強い。


「Twitterにおける日本語処理について」講演者:藤井慶太(Twitter, Inc. ソフトウェアエンジニア)

アーキテクチャ
 バックエンドの国際化:共通テキスト処理ライブラリPenguin
 検索のアーキテクチャ
 トレンドのアーキテクチャ
ツイートの日本語処理
 言語判定
  問題点:複数言語まじり、絵文字、Unicodeアルファベット
 形態素解析:Gomoku
  日本語素性圧縮:ひらがな接頭詞+名詞。動詞+助動詞。動詞+接続助詞。ASCII+数字。
 フレーズ抽出
  トークン分割+Ngram生成+フィルタアウト(最初・最後が助詞なのはダメ。接頭詞で終わる・接尾語で始まるのはダメ)

一部オープンソース化: https://github.com/twitter/commons

やりたいことはまだまだたくさん
 形態素解析の品質向上
  日本語:新しい単語の追加
 同義語、類義語、翻訳、略語などのサポート
 フレーズ・トピックのクラスタリング
 Sentiment Analysis

#JoinTheFlock!!
日本語のできるエンジニアを募集中: https://twitter.com/jobs

naltoma: Twitter社視点での「目指してるゴール/ストーリー」はどんなものだろう。

Q: 漢字での言語判定は、Shift-JISに変換してからホゲホゲするのは辞めて欲しい。森鴎外とひらがなが使われるとどうしても検索できない。吉野家のやつとかも。

Q: 「お土産」の例があったが、「広島 お土産」で引っ掛からないとかそういうケースも検討している?
A: 一つのやり方としては「土産」「お土産」を同じと看做してクエリを書き換えるとか。またはインデックス時に変換するとか。可能なアプローチを評価した上でベストな方法を採用したい。

Q: 「2つ言語が混在」について、どういうコミュニティで使われるとかどういう状況で使われるとかあるか。
A: 英語言語に対して母国語コメント付けてツイートするというようなケースが多い。

Q: トレンドについて。TwitterのTrend words更新頻度はどれぐらい? ヘビーユーザは高速更新を望むが、人によっては一日/一週間とかいろいろありそうだが。
A: 時間単位での更新はしていない。昼間だとツイートが多いため更新が早いが、夜ではツイートが少ないので更新が遅い。東京では更新間隔が早いが、地方では遅くなる。2つ目については、リクエストとしては昔からあるので前向きに検討したい。

Q: ユーザのLocation使ってフレーズ抽出しているようだが、Locationの取り方は?
A: 携帯だとGPSからの付加情報。それ以外だとIPアドレスから推定。
Q: 形態素解析した後にNgram生成してフレーズ抽出とのことだが、具体的には?
A: トークンをNgram化して、日本語としておかしいものを省く。

Q: 言語によって処理する必要があると思うが、Twitter社の場合は常にどこかの国のピークがあるという状況に想像するが、どうしている?
A: ピークによってアーキテクチャを変えてるというようなことはしていない。最大ピーク時に耐えられるようにデザインしている。アメリカの昼間が最大ピークでそれに合わせた設計。
Q: 日本のピークが来る度に日本語処理の部分を動的に増やすとかはしていない?
A: 今はやっていない。

Q: 速度優先ということだったが、精度はどのぐらい? またアクセント文字で省略された書き方になってるのも問題だったが、そこら辺はどうか。
A: コンポーネント毎に区別して出してて全体としては良く分からない。日本語については99%。ラテン語は97~98%ぐらいだったと記憶。Unicodeをノーマライズする以外は特殊なことは特にしていなかったかも。

Q: 「踊ってみた」とかをくっ付けることでインデックス小さくしてるということだが、逆に大きくならないか。小さくなってるか。
A: そのままだとインデックスする単語数自体が増えてしまうので、小さくなる。

Q: これから大学との共同研究を進めて行くとのことだが、ツイートのコーパスを公開するとかの予定はあるか。
A: 特に大学向け公開とかは無さそう。外に出すのではなく、大学とかインターンとかで一緒にやるという方向になりそう。


招待講演1 Active Objects: An Entity-Centric Search Experience (p.1) Patrick Pantel 氏(Microsoft Research)

Faceted search

Big opportunity to act as a broker
2) actions in web search
 actions vs intents: has some kinds of different [Border, 2002] [Rose and Levinson, 2004]
 entity:43%, entity category:14%
 contexts, clicks, type of actions, type of entities, entity-switch

3) active objects

4) mining entity types
 entity-switch, type of entityの効果あり
 TAIL lower than expected: PEOPLE types

naltoma: entityとは?何をどう抽出する?(検索エンジンの「多数の例」では想像できるけど、想像できてないentityは分類可能?どのような特性がある?)

昨日の「名詞って何だ」的な話を聞いたお陰か「entity って何だ」とあれこれ妄想してたので大雑把にしか話を聞いてなかったです。ごめんなさい。
@nokunoさんによると、WWW 2012でのペーパーはActive Objects: Actions for Entity-Centric Search (PDF)らしいです。


招待講演2 障害者・高齢者と対話のことば (p.2) 市川 熹 氏(早稲田大学人間科学学術院教授・応用脳科学研究所員)

災害:障害者の被害の実態調査ができていない
 連絡システムと障害者・高齢者間のインタフェース、心のケア:対話言語

対話言語の位置付けと心的負担
 合成音性は疲れる/手話CG//
 対話言語の解明:それぞれに負担が異なる
  緊急事態による負荷増大/処理能力減少
   対話言語のメディアやコンテンツ特性を活かした負荷減少?
 負担の測り方いろいろ:(略)

メディア特性@対話音声:揮発性(すぐ消え去る)/単語切れ目/何万語/文章構造/円滑話者交代///
 声->音韻知覚->文理解->意味
 意図->文作成->発活->声
  中間部は普段意識しない:このような能力の獲得はどのようになされるのか?
 発話者情報
  ・誰が(個人性)どのような状態(感情・体調等)
  ・何をいっている(言語情報)いるか。
  を総合的に判断することで「心的負担軽減」に繋がっているらしい?

物理的実体(音、光、、)の上で情報伝達:プロソディ
 単語あるいはそれ以上の広い範囲に関係した情報。時間変化及び標準的値からの偏差等に現れる。
 音声ではリズムや音程差などに現れる。
 プロソディの有無と内容理解度:標準80-90%プロソディ情報なし40-50%

対話言語の構造
 伝達内容に関する情報:テキスト
 伝達プロセスに関する情報:プロトコル+ヘッダー
 言語情報+周辺言語情報+非言語情報+予告的な情報(予告情報+セグメント教会予告+係り受け構造予告+etc.)
 F0モデルの導入に予告的な情報が含まれているか?(最初の1周期を聞けば予想できる?存在してたとして本当に使っているか?)
  多パラメータをGA最適化
   単語教会:「とうきょうのおみやげ」->「ななななななななな」: ○
   文構造:文章を「音声ありvs文字だけみせる」:多くの場合○
   先行部分で構造推定:条件によるがF0先行部分で80%
   円滑話者交代:重複発話注目(日本語英語共に40%前半台。手話でも発生):存在69%。(使ってるかは分からない)

対話言語と障害者支援
 手話・指点字のプロソディ対比
 手話@自然言語:手指無し/顔無し/自然なリズム/一定リズム。
  ろう者は殆ど手を見てなくて顔に注目。15%程度を見て理解

発話は予告を検知し、TRP拘束を受ける
 留学生はプロソディ表現が苦手。TRP無視して重複頻度が高い。

認知言語学
 第1期:記号処理モデル
 第2期:分散処理モデル
 第3期:アフォーダンスモデル/ミラーニューロンモデル
  類似パターンが強く引き寄せられる仕掛けの存在?

Web検索は対話だが、下記条件が成立しているか?(負担になっていないか?)
 言語行為論の適切性条件
 協調の原則
 対話の共同活動

発達障害支援研究会(電子情報通信学会HCGグループ)
 言語獲得・発達障害と対話言語
 身体リズム・相互作用 -> プロソディ -> 心的普段軽減/他者存在 -> 社会的存在
 「対話言語」として横断的に見ることで見えてくる特性

著書:「対話のことばの科学」(とても面白かったのでポチリました!)

(naltoma: 生命らしさはこういう物理的な現象を通した所で初めて組織化されるのかなとかもやもや妄想したり。)

Q: 留学生がTRP美味く掴まえられないという話があったが、留学して第2言語を学ぶ際にプロソディが重要ということか。
A: 言語学者にいろいろ聞いて見ているがあまりはっきりとはしていない。
Q: 予測という点ではどういうゴールを予測しているかといったことも重要になるんじゃないかと思うが、融合か何か考えられるか。
A: どういう話をしているかという共通基盤が無いと対話が成立しないと思う。セグメンテーションに限定するならそれほど難しくない。男性名詞女性名詞とかいろいろある言語についても明確な回答が貰えないが、細かく区切ることで予測しやすくなるという側面があるんじゃないか。

Q: 予測は言語によって有利不利が大きく異なりそう。先頭の一語を見れば英語ならすぐ分かるが、フランス語/中国語等「最後に付け加える言語」では最後まで聞かないと分からない。日本語だと相手の様子見ながら良さそうなら「です」と言うとかそういうこともできる。
A: そういう疑問は持っている。ただし文法構造が全く違うのに似ている側面もある。文脈や「しかしながら」で切り替えるとかいろいろありえるが、それを否定しているわけではない。今回は物理層にも何かあるんじゃないかというところについての話。問題提起。

Q: 高齢者に対して「ゆっくりはっきり」とかいう指示をされることが多いが、ピッチ幅を広くした方が良い?
A: スピーチストレッチャを使った事があるが、新しい文化/タレント/ニュースとかを知らないことを「耳が遠い」と解釈してしまうこともあって要因が様々。全体的に見ていく必要があると思う。

Q: システムと人間との対話を見ていて、予測が聞くか否かでプロセスが大きく異なる。システムから把握できる情報だけでも「この人は何か困っていて支援が必要」とか見えてきている。そういう情報を利用できないかなと思いながら調査している段階。
A: 発達障害にもバリエーションが様々なので、問題の切り分けが必要。今回の枠組みでもカバーしきれていない可能性もある。一人一人の障害の性格で、どういう教育していった方が良いかを判断していく必要がある。パターンも必要だが、両方のバランスが重要だと思う。

Q: 災害時における情報収集とかやってるが、障害者に対する情報提供が全く分からない。最後にあった話で長期にわたる方向性を示してもらえたが、短期的な方向性があれば。
A: それを探りたいということもあってやっている。今回の震災の場合には津波ということもあってネットワークインフラ自体が切れてしまった。携帯電話でも太陽電池なりで電力供給できるとかも必要。最小限必要な情報をスパッと伝えていくとか。沢山の情報を提供すれば豊富に解釈できるという考え方もあるが、そうではなくて「如何に情報を切り捨てていくか」が第一義。マジックナンバー7とかいう言葉もあるが、緊急時には3つぐらいかもしれない。処理可能なことだけと取り上げて判断を誤ってしまうこともあり得る。


P2: ポスター(2)


P2-2 テキストの多様性をとらえる分類指標の体系化の試み(2) (pp.739-742) ○小磯花絵 (国語研), 田中弥生 (神奈川大), 小木曽智信, 近藤明日子 (国語研)

書き言葉の多様性を体系的に評価したいという話で、今回は「スタイル/抑揚・リズム/明晰性」として抽出できた因子毎に評定尺度を定義し、サンプル数増やした検証をしてみたという話らしい。
「多様性」にこれ以外の軸はあまり必要無いという話なのか、手間の都合上top3に絞ってるのかな。


P2-7 何をつぶやいているのか?:マイクロブログの機能的分類の試み (pp.759-762) ○菊井玄一郎 (岡山県立大)

今回は自動分類するという話ではなく、分類するための指標として分類体系をデザインしてみたという話らしい。
予稿にもいろんな分類が示されてるのでそれ含めて参考になりそう。


P2-24 意味検索のプロトタイプシステムの構築 (pp.823-826) ○大倉清司, 潮田明 (富士通研)

自然文による入力を「意味最小単位グラフ」に自動変換し、文単位でグラフマッチングを行う類似度計算を行うことで「意味」を捉えた検索をできるようにしたという話。
意味グラフとしてデザインしてる質や量が気になる。
省略されたデモも用意されてたけどどのぐらいの情報源に対してどのぐらいの速度で検索できるんだろう。


P2-28 料理レシピテキストの構造解析とその応用 (pp.839-842) ○苅米志帆乃, 藤井敦 (東工大)

料理レシピからフローチャートを自動生成するために、動作セット単位に分割+ブロック作成しながら適宜補正するという話。
基本的には自然言語を直接処理してるので、ストーリーのおかしさとか校正目的にも使えたりするんだろうか。


P2-29 小学生のための新聞読解支援に向けた重要語抽出の検討 (pp.843-846) ○小林健, 久保恵津子, 安藤一秋 (香川大)

小学生にとっての難しさをアンケート調査(?)して分析しつつ、「よみうり博士のアイデアノート」を教師信号と看做して「解説が加えられる用語」について分析し、それらの結果について双方から擦り合わせていこうという話らしい。
難しさのケース分けとかしてある点が参考になりそう。


P2-33 意味的知識を用いたWhy型質問応答の改善 (pp.859-862) ○呉鍾勲, 鳥澤健太郎, 橋本力, 川田拓也, De Saeger, Stijn, 風間淳一 (NICT)

もともとの精度がまだ低い(P@1で0.3前後)ようだけど、向上するアプローチとして「ネガティブな事象の原因もネガティブであることが多い」という極性情報と、それだけでは条件が緩すぎるので言語表現を加味して学習させることで改善できたという話。
単に極性情報を使うというだけではうまくいかないのね。


P2-34 商品に関する被参照性と類似性に基づくレビュー文書からの競合商品同定手法(pp.863-866) ○石橋直己, 乾孝司, 山本幹雄 (筑波大)

そもそも「商品」をどうやって定義するんだろうとか変な疑問を思ったりしましたが、そういうのが自明(レビュー文書があるぐらいだし)という前提で競合商品同定するための良い素性や類似度計算を作りたいという話っぽい。
TFをちょっと工夫した、「商品Xのレビュー文書に現れる商品名の回数(参照回数)を求めることで、商品Xに対する各商品の競合商品らしさを見積もることができると考えられる」という仮定に基づいた「TF補正」が比較的良かったらしい。
逆にこういうレビュー文書がそこそこ揃ってるなら割と抽出しやすい問題にも感じたのだけど、何が問題だったんだろう。(ベースラインとして比較もしてるようだったけど、何故抽出できないのかがピンと来なかった)


P2-36 観光地における行動の自動分析に向けて (pp.871-874) ○山本拓未, 徳久雅人, 村田真樹, 村上仁一 (鳥取大)

「体験文」を抽出できるように機械学習して、さらにクラスタリングして「分析」しやすくしましょうという話。
体験文抽出の方は「体験表現抽出ルール」を手動で構築したっぽい。

言語処理学会第18回年次大会(NLP2012) 1日目レポート

水曜日, 3月 14th, 2012

自然言語処理学会第18回年次大会(NLP2012)本会議1日目」に参加してきました。

去年もそうでしたが、今回も興味のあるタイトルをピックアップしていってもどのセッションにするか迷ってしまいます。悩んでても仕方ないので、今回は「頭脳プロジェクト(「ロボットは東大に入れるか」キックオフシンポジウム)」に参加したことと繋げる意味を兼ねてそれ関連に見えるテーマがある以下のセッションに参加してきました。

 ・セッション1: D1: 文脈処理
 ・ポスターセッション: P1: ポスター(1)
 ・セッション2: C2: 言い換え

以下、その参加メモになります。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。

(ちなみにおじさんは既に体力の限界なんですが、若手研究者対象の「第10回YANS懇」というイベントで盛り上がってるらしい。去年もやってたようですが、基本的に情報があまり表に見えない(気づいてないだけ?)ので良く分からないけど、とても楽しんでるっぽい雰囲気がたまにツイート検索で見つかりますw)

[ 訂正情報 ]
[2012-03-15, 18:51] D1-6について、発表者よりQAの一部に質問が混ざった解釈になっていたとのご指摘を頂きましたので、修正しました。
 参考ツイート: 杉浦さんからの指摘當間具体的な指摘1具体的な指摘2


<目次>
D1:文脈処理

P1: ポスター(1)

C2:言い換え



D1:文脈処理   3月14日(水) 9:00-12:00 602講義室  座長: 東中竜一郎(NTT)


D1-1 Social Choice for Anaphora Resolution ○西口純代 (東京理科大)

「彼/彼女」といった代名詞が指してる照応解析を Social Choice Theory(社会的選択性理論)で解決しましょうという話。
Binding Conditions という方法でもある程度解けるけど、難しい状況がある。
代名詞の指してる候補が複数あって選ぶのが困難な状況において、
speaker’s intention decides the reading という仮定に基づく方法で解決するっぽい。

naltoma: 自然な推定に見えるが、この推定で失敗するケースは無い?
naltoma: 複数候補(複数人名)が出てくるシチュエーションでもどんどん話題が変わっていくケースがありそうだが、解決できそう?(具体的な例文考えないと卑怯な質問だけど)

Q: 社会的選択性理論を使っているが、スピーカーと聞き手が同じ選択をするのか?
A: そこはまだ分からない。


D1-2 辞書情報を利用した間接的照応関係解析の試み ○良峯徳和 (多摩大)

SNePS(Common Lisp)コードのグラフ表現として表現し、処理するという古くさいアプローチ(本人談)。
自然言語コンピューティングのような応用を想定して、常識的な知識/文脈を通じて意味を絞り込むことで多義的な曖昧性を絞り込む。
対象問題:間接的照応関係/橋渡し推論(e.g., a blue Mercedes -> the wheel)
Wordnetをメインに、補助的にwikitionaryを利用した辞書情報を元に「Mercedes, driver, wheel」間の相互関係解釈について検討。

naltoma: Stanford Parserの結果を利用するようだが、そこでのエラーはどのぐらい問題になる?(パーサ自体が解析しているという話にならないか)

Q: Wordnetとwikitionaryを併用した理由は?
A: WordnetではMercedesのような固有名詞は弱いので併用した。


D1-3 超語彙パターンに基づく連辞型響鳴連鎖の自動発見手法の提案 ○吉川正人 (慶大/学振), 伊澤宜仁 (慶大)

断片化、プランニング、適切性判断等の認知負荷軽減に役立つとされている、話者を跨いだ類似発話の反復=響鳴(resonance) を自動発見したい。
対話統語論における中心的な分析対象
 会話データには構文解析を適用し難い(断片性)
 「_」置換した網羅的パターン生成し、グラフ間マッピングで抽出

naltoma: (逆に)饗鳴自体を機械的に決めてしまって、適度な揺らぎを加えて対話することで「自然」らしくなったりする?

Q: 単位は文?
A: 韻律単位と呼ばれてて、文よりは小さい単位。
Q: 長い文だと取れないという話だったが、それを分解して処理すると解決できそうだが。重み付けでも良さそうではある。
A: 「so」が入っててその前後で切ったり、重みを付けるというのはできそう。

Q: 抽出できなかったのは?
A: 隣接発話ということで間に何か挟まった形のものは除いている。これが10例ぐらい。他にも難しそうなケースが4例ある。
Q: どういうところで饗鳴したと判定した?
A: 質問応答で「Are you…?」に対する「I am …」のようなものは定型文に近いので除外、というようなルールをいくつか設定した。
Q: 対話だと相手のことが分かってるよというような意味での言葉とかもあると思うが。
A: そういうことを前提にして検討してみた。


D1-4 コーパスに基づく雑談を目的とした発話役割同定 ○平尾卓也, 松本和幸, 北研二, 任福継 (徳島大)

話者視点での文の持つ機能=発話役割(事実/心情/依頼など)
タスク遂行対話/非タスク遂行対話(対話自体が目的)
 非タスクでは対話の流れを予測することは困難
  従来のルールベースではそれ以外のケースが役割推定できない
 「SWBD-DAMSL(発話種類を記述したタグ)+助詞・助動詞の意味」を人手で談話に役割タグ付与
 形態素2-gram->品詞組み類似度で判定。品詞毎に重み調整?

naltoma: 特徴ベクトルを構築する際か類似度算出の際に、重みを調整しているようだがどうやって調整している?
naltoma: タスク遂行/非タスク遂行対話の違いが最初に述べられたが、今回のアプローチで「非タスク遂行対話」に特化した部分はどこか?
naltoma: 品詞ベースでは頭打ちにならない?

Q: 「助詞・助動詞だけでは役割が判定できない」という例を挙げてもらえないか。
A: 「寂しい」という心情も判定する必要がある。

Q: 対話を扱っているのに先行文脈を一切使っていないのは何故?
A: 今回は一文でのみ処理しているが、対話処理初めにおける役割推定を想定している。

Q: 対話行為を推定するというのは米国でも多数事例があると思うが、違いは? 例えばスイッチボードでタグをあてる例とか。
A: 調査してみたい。
Q: 選んだタグは何故そうした?
A: 差異を見るため、先行研究で採用しているタグを採用した。

Q: 今回扱った掲示板ではどういう内容が話されていた?
A: いろいろ。ドメインがあるわけではない。


D1-5 発話文の前提の推定 ○冨永善視, 島津明 (JAIST)

複数主体による共同行為->相互信念/共通基盤が必要
 発話の前提は聞き手がその発話を否定しない限り、聞き手は前提を承知した(受け入れた)と考えることができる
先行研究(英語)では70%程度の性能
日本語文の前提トリガー
 単語型トリガー:特定の単語がトリガー
 構文型トリガー:特定の文構造がトリガー

naltoma: 語彙や意味みたいなものと一緒で、前提を網羅的に列挙するということはタスク設定として妥当なのか?

Q: 前提の意味が分からなくなってきたのだが、含意とかはどうなる?
A: 前提と考えることもできるが、含意として説明した方が良いんじゃないか。
Q: 「前の因縁をやりかえす」みたいなものも前提?
A: はい。
Q: 「車がターンする」も前提?
A: 何かしらの前提、車が走ってるとかはあると考えられる。

Q: システムの入出力、特に実際の出力のについて教えて欲しい。
A: 具体的な出力は用意してなかったので見せられない。
Q: 600文の中にどれだけ前提があったのか?
A: 網羅的に出すことまではやってなくて、ランダムに選んだ50文に対して網羅的にやると36の前提が見つけられた。

Q: 存在の前提(犬が吠えた->犬がいるとか)は?
A: 存在前提もあるが、今回は扱っていない。対応する必要があるとは考えている。

Q: この辞書公開してもらえないか?
A: 検討します。


D1-6 説明生成に基づく談話構造解析の課題分析 ○杉浦純, 井之上直也, 乾健太郎 (東北大)

2文間の意味的関係認識。特に文間に接続表現がない場合(impilit)が対象。
先行研究:主に表層的な情報が手掛かり->F値0.40程度
非明示的な情報(照応関係や常識など)を手掛かりとした認識モデル「談話に対する説明生成モデル」で解決したい。
 仮説推論:今回は4種類の知識。関係間の関係の知識により事象間の関係を導けるという特徴がある。
 WordNet, FrameNetと比較評価:inhibitなどが困難

naltoma: 2者間で異なる認識を有している状況をモデル化できる?(≒矛盾と同一状況と看做せる?)
naltoma: 常識を人手で与えているようだが、どのぐらい必要だろうか? 全て列挙できるだろうか?(列挙後どう選択する?abductionだけでいい?)

Q: 文章とgive,inhibitとかの対応、翻訳規則は?
A: boxerというツールで論理式に変換。

Q: FrameNetの知識と比較してカバー率を調べてるようだが、FrameNetにどういう情報があって、どういう風に知識がつくられているのか?
A: FrameNetの中にFrame間関係が書かれている。cause関係にあるのはどれか、といった点は自分で考えて与えた。
Q: ほぼ自動的に設計できる?
A: いろんな種類があるので1対1とは言えないが、そう考えられるものを抽出した。

Q: althoughが含まれた例になってるがこれはたまたま?
A: たまたま。生成された説明文の正しさを判定するのが困難だったので、試験問題から選んだ。
Q: althoughが含まれた例になっているが,接続表現を含まない文間関係を対象としていなかったか?
A: 説明を生成する際にはこのalthoughは消している
Q: センター試験の問題文を用いた理由はあるのか?
A: 生成された説明文の正しさを判定するのが困難だったので、ある程度平易で正しい英語が用いられている試験問題から選んだ。

Q: abductionらしさがなかったように思うが、競合する仮説の取捨選択は?
A: 知識を増やしていくとそういう話になると思う。


D1-7 大規模世界知識を用いた仮説推論による談話解析の課題と対策 ○井之上直也, 乾健太郎 (東北大), Ekaterina Ovchinnikova, Jerry R. Hobbs (USC/ISI)

潜在する情報を顕在化(推論)したい:論理ベース推論
 あらゆる命題列挙->最適組み合わせを選択: 推論基盤技術が必要
 論理式変換時に20リテラル相当入力->1000個リテラルの組み合わせ最適化->37万推論規則: 2.6秒
仮説推論+仮説選択高速化(ILP)+無矛盾性制約
 オーバーマージ問題:意味的互換性以外も考慮する必要がある

naltoma: 論理として表現できる談話のバリエーションは?(現時点でどのぐらい設計できていない?)

Q: 背景知識が矛盾してても動かないと使い難そうだが、どうなっているか。
A: 与えられる背景知識と観測は矛盾していないものという仮定で定式化している。条件は成り立っている。
Q: 実際に扱ったデータもそうなっている?(チェックした?)
A: ILPの定式化における仮定のみで、データ上でのチェックはしていない。
Q: その仮定に対して矛盾している時に何が起きる?
A: その場合には、何らかの推論が起きるには起きるが、生成された仮説が満足しているかは保証されない。
Q: 含意も?
A: その通り。

Q: オーバーマージ問題に興味がある。統語的な情報を扱う事を考えているようだが、どういう時に単一化してはいけないのか。そこら辺をチェックし始めると時間が遅くなりそうだが。
A: あらゆる単一化できない条件をエンコードしようとすると現状の速度は出ないと思う。現在考えている方針は、単一化できないような、してはいけないような仮説が含まれてる時に値を小さくするような関数を学習しようとしている。

Q: 背景知識で「嫌だったら辞める」とか書いてたが、そういう強烈な背景が合っても良いのか?
A: 背景知識として hage(x,y)->resign(x,y) というのを入れているが、実際にはそれがどれぐらい信頼できるのかという値を考慮してるのでソフトな推論が出来ている。「だろう」がついてる。
Q: 単一化について、x,yを入れ替えるということ自体が推論になっていないか?
A: 後で。


D1-8 テキストからの物理モデル生成に向けて ○横野光, 稲邑哲也 (NII)

テキストが書かれた状況の理解: 形式的なモデルの獲得->シミュレーションによる次の状況の予測
大学入試の物理問題に限定「ロボットは東大に入れるか@人工頭脳プロジェクト」
 記述されたある状況で起こる現象についての問題、知識を問う問題:前者に対してシミュレーションベースでアプローチ
 出現する物体/物体間の位置関係/物体の動作 状態遷移モデル
  位置関係に関与する要素
   文のタイプ同定+事実性判断+照応解析(ゼロ代名詞、相対名詞のノ格、イベント)+述語項構造解析

naltoma: テキストのみで生成したいモデルは複数?後で図等の別要因を使って絞り込む?

Q: 図を見ないと解けない問題がどれぐらいあるか?
A: 頑張ったらなくても分かるというのが2/3ぐらい。1/3は図が必要。図中に記号で示されてることもあるので、そういうのはOCR的に相対位置を見るとかある程度やれそう。
Q: コメントだが、アノテーションしていってカバー率がどう変化するかをやっておくと比較評価しやすくなる。

Q: 場所を表す名詞には着目しない?
A: 相対名詞が何かというのは先行研究があるので、それを参照使用と考えている。

Q: 何が起こるかみたいな記述があると思うが、物理シミュレータでは何かが動く。その中からどれが適切かというのを選ぶ必要がありそうだが、物理シミュレータから生成するのか、シンボリックにマッチングするのか。
A: 基本的には物理シミュレータの数値でグラフを書く問題なら書かせるといったことを想定している。

Q: 図を使わないといけないのは図で表現しないといけないようなものだと思うが、今回はテキストベース。図ベースをしないのは何故?
A: 写真ならともかくイラスト抽象化された図では難しい。数値化されたものを使いたいということでテキスト+シミュレータから。

Q: バネ論はいろいろやられているので参考にすると良いかと。デバイスオントロジー。


P1: ポスター(1)


P1-1 “名詞らしさ”と品詞の概念 (pp.199-202) ○塚脇幸代 (フリー)

言語体系と呼んで良いのか分かりませんが、現行の品詞体系が複雑怪奇なので見通し良い体系化できないかというのを遠くに見据えた第一歩の研究らしい。


P1-3 日本語深層格の自動抽出のためのコーパス開発 (pp.205-208) ○松田真希子 (金沢大), 森篤嗣 (帝塚山大), 川村よし子 (東京国際大), 庵功雄 (一橋大), 山口昌也 (国語研), 山本和英 (長岡技科大)

(タイミング合わず遠目にポスター眺める程度)
「二格」に焦点を絞って人手で意味属性+深層格付与。
その際の傾向や特性についての考察があれこれあったみたい。

naltoma: 深層格は一意に定まるもの?(クラス分類?)
naltoma: 一意に定まらないとしたらどのような基準・指針で設計するべきorした?


P1-4 「やさしい日本語」のための語彙制限の検討 (pp.209-212) ○杢真奈見, 山本和英 (長岡技科大)

(タイミング合わず遠くから眺めた程度)
先週のIPSJであったような話と近いのがあるのかなと思って違いとかを聞きたかったんですが、タイミング合わずに残念。
制限言語とか「やさしい日本語コーパス」とかで上位概念に言い換えるとか云々らしい。


P1-10 対話文からの意図・感情推測精度向上〜漫画を例にして (pp.231-234) ○河原直弥, 岩下志乃 (東京工科大)

私の想定と違って、漫画家さん(でいいのかな)に便利に使ってもらうための位置付けっぽく、フォント推薦とかしたいという話らしい。
吹き出しの形状毎に感情を手動定義+台詞の感情表現を使って推定するとか云々。
コメディとかでの「意図的に場面無視した表現/選択」というような、作者の意図はまだ想定してないらしい。


P1-11 複数ドメインの意見分析コーパスを用いたアンサンブル学習による意見分析システムの提案 (pp.235-238) ○高村慎太郎, 吉岡真治 (北大), 関洋平 (筑波大)

ここでいうドメインとは「Yahoo!知恵袋」「新聞記事」とかそういうもので、ドメイン毎の特徴があると思われるコーパスを
 ・全部まとめてごっちゃにして学習する場合
 ・個別に学習した場合
 ・組み合わせて学習した場合
とかケース分けしていくつか試した結果、基本的にはドメインで切り分けてアンサンブル学習することで精度向上するという話。
「ドメイン」自体の定義はまだ曖昧で、「Yahoo!知恵袋」の中にもいろんなドメインがあるという可能性はありそうとのこと。
ただし、今回の想定としては学習用コーパス自体が比較的小さいもので、どううまく活用するかという所に焦点があるらしい。


P1-26 自動抽出した利用者の視点によるレビュー要約 (pp.295-298) ○田窪直人, 鈴木良弥 (山梨大)

私の想定と異なり、「利用者の視点=自動抽出したキーワード」という設定での要約。
これはこれで面白かったんですが、「要約」したいキーワードをTFIDFチックに重要度で決めてしまうというのは逆に「見たい要約」を削ってる側面もありそう。

naltoma: 「利用者の視点」とは?それをどう反映させた?
naltoma: 「利用者の視点」の入力は一度きり?何度か繰り返すことで「過去の視点」を正したり、流れを見ることで補正したりする?


P1-31 文書から取得した制約知識に基づく潜在的トピック抽出 (pp.313-316) ○立川華代, 小林一郎 (お茶大)

(遠くから話を横耳しながら眺めた程度)
一般的なLDAとかだとユーザの意図と異なる学習してしまうことがある。
そういう意図の一部をキーワード的に与えるという事例もあるが、今回はその与えるキーワードリスト自体を自動生成したらしい。
それって「ユーザに意図に則したコーパスを用意すること」を強いてるようにみえてしまうのだけど、何か勘違いしてるのかな。

naltoma: ここでいう「潜在的トピック」とは?抽出した「トピック」はどう解釈する?解釈の必要が無い?


P1-32 1つの質問に投稿された異なる意見の回答の抽出 (pp.317-320) ○小島正裕, 南口勝志, 西村涼, 渡辺靖彦, 岡田至弘 (龍谷大)

私の想定と異なり、「Yahoo!知恵袋とかに見られるQAサイトでのベストアンサーとそれ以外のアンサー」をペアにして、「同じ意見か否か」の2値分類学習しましたという話。これはこれで面白い設定。

naltoma: 「意見」の定義or分類はある?(≒談話構造におけるサブクラス?)
naltoma: 「異なる意見」の定義or分類はある?


C2:言い換え   3月14日(水) 15:00-18:00 504講義室  座長: 関根聡(NYU,楽天技研)


C2-1 語概念連想を用いた複数単語からの連想語生成手法の提案 ○芋野美紗子, 吉村枝里子, 土屋誠司, 渡部広一 (同志社大)

自然言語による操作やコミュニケーション
言葉の意味を解釈できるか/違和感の無い操作や反応が行えるか
 常識/連想:ある情報から新たな情報を生み出し、結びつける(調子が悪い->病気風邪最近寒い)
 語の知識をモデル化:概念ベース+関連度計算方式+共通関連語法+最小関連度雑音処理 -> 複数語から連想語生成

naltoma: 構築した概念ベースはドメイン固有? ドメインフリー?
naltoma: コミュニケーションにもいろいろあると思うが、「共通関連語法」のような制約が強過ぎて同じ単語しか生成できずにワンパターンと化してしまうことは無いか。
naltoma: 言葉としてうまく表現すること自体が難しい事象をモデル化できるか。(言語として発話/生成された時点で欠落した情報は必要無い?)

Q: 概念ベースではどう構築した?
A: 国語辞書の見出し語が概念一覧。見出し語に対する説明文を形態素解析し、属性とした。さらに新聞記事との共起を見て付与したり、ノイズ処理したもの。
Q: 今回での失敗事例は、概念ベースが十分じゃないから出て来ないのか、手法に問題があるのか。
A: 雑音が一杯出てきてしまい、省ききれていない。
Q: それは概念ベースの精度?
A: 概念ベースは語の関係を示しており、その観点では確かに関係はある。ただそこから連想しようとすると問題になる。

Q: 連想語を大きく分類すると、類縁性/近接性(似た者通し)か群類性に分けられる。その観点から何か検討しているか。
A: 今回は概念ベースを使って出てくるものは関係しているだろうという点から出しているだけで、人間がどう考えているかという視点はまだ組み込めていない。
Q: 例えば「動詞」があるとそれに関連のある言葉はあまりにも幅広いと思う。


C2-2 内容語および機能語との共起分布を用いた述部の同義判定 ○中村紘規 (京大), 泉朋子 (NTT), 柴田知秀, 黒橋禎夫 (京大)

自然文において述部は文の意味の中心:ブレーキを踏む=ブレーキをかける
述部の同義判定をしたい
 先行研究+述語項と共起する機能語(出現頻度の高いガ格、ヲ格)の分布も加える
 素性ベクトル作成+Weight関数+Measure関数

naltoma: 機能語を抽象化して素性ベクトルにできないか?

Q: テストコーパス(データ)はどうやって作った? 意地の悪い見方をすると、「そういうデータだからこういう性能の差が出た」と言われることがある。
A: テストデータと手法については別物として作った。
Q: 他のデータに適用した時に同じ傾向が見られるかどうか。ランダムサンプリングするとか。
A: 今回のデータはブログからランダム選択して設計した。

Q: 最適化するという他立場から見ると強い制約をかけているように見えるが、何故こういう形にしたのか。
A: 先行研究に習ったというのが大きな理由。

Q: NTCIR9でテスト&トレーニングのコーパスがある。参加者に対してそのデータを公開して使ってもらおうかと考えている。それを使って検証してみると良いんじゃないか。


C2-3 機械翻訳文言い換えシステムにおける学習機能の拡張 ○鈴木良生, 田添丈博 (鈴鹿高専), 椎野努 (愛工大)

長文・複雑な文では直訳で固い/意味を取りづらい訳文が生成される。
英文->不自然な日本語->自然な日本語
学習機能:係り受け解析による曖昧一致文節学習
 関連する/関連した:し+た->「た」削除->「する」原形
 レーベンシュタイン距離+コスト調整

naltoma: 枠組みとしては作文支援システムと同等?
naltoma: この方式だと衝突するルールを多数学習してしまわないか?
naltoma: 自然でない文においては、係り受け解析自体の失敗が高く無いか?

Q: 学習数、学習成功数というのはどういう定義?
A: 学習数はマッチングしたもの。学習成功数は正解数と一致したもの。

Q: 翻訳の質を上げるためには、翻訳のモデルを改良するという立場と、日本語側の質を改良するという立場があると思うが、後者の特徴は? 普通は翻訳モデルを向上しようとするが、今回は言い換えることで質改善しようとするようだが、そのメリットや特徴が知りたい。
A: 既存の翻訳機でできなかったことを改善したい。
Q: それを言い換えだとすんなりできるというような説明があると納得しやすい。
Q: 正しい翻訳があって、更に例で挙げた「頼んだ」に置き換えるような方法を導入するという形になると、機械翻訳とは異なる話になってくるように思える。


C2-4 定義文から自動獲得した言い換えフレーズペアの分析 ○河合剛巨, 橋本力, 鳥澤健太郎, 川田拓也, 佐野大樹 (NICT)

自明でないフレーズペア(ユーザのブラウザに送信する利用者のブラウザーに送る)が大量にあり、先行研究でもランク下位。
先行研究:同概念の異なる定義分に含まれるフレーズペアとし、言い換えらしさを判定(SVMスコア)。
語彙資源+単語間アライメント -> Trivial / All / Partial / None
 Allの細分類: 述語間の関係で3つに分類。Partialも細分類。
  今後人でアノテーション精査後にALAGINで公開予定

naltoma: 定義文自動獲得はどのぐらい収集出来ている?(収集漏れてるものは言い換え判定自体困難?)
naltoma: フレーズペアでの言い換えを考えているようだが、言い換え可能性は文脈依存?非依存?

Q: 誤って検出したケースもあったと思うが、どういうものがあったか。
A: 体言間を関連語対で対応付けてしまったもの。(ライフプランのアドバイスを行う≠資金計画などの指導・助言を行う)

Q: 同義と含意の割合を見ると同義の割合が低いようだが、そもそも同義と含意を分けられるのか。また含意についてはいろいろ先行研究もあるがそれとの違いは。
A: 体言によっては体言のみで双方向言い換え可能なものももあるが、一方でフレーズになると場合分けが必要なケースもある。


C2-5 印象尺度に基づいた文章言い換え手法 ○吉岡直輝, 松本和幸, 北研二, 任福継 (徳島大)

相手や場面に応じて言葉を選ぶ必要性
先行研究:動詞を変換
動詞に加え名詞を変換候補にすることでより自然な言い換え
 同義語辞書+共起辞書+印象辞書
 Formal/Casual/分類不能を自動分類

naltoma: 正解文の定義は可能?
naltoma: そもそもカジュアルな文章だといろんな言葉が省略されてたり特有の言い回しがありそうだが、動詞/名詞の変換するだけで「印象」良く伝わるような文になるのか。
naltoma: 単語単位の言い換えで十分? フレーズとか拡張可能?
naltoma: 共起頻度足し合わせでCasual/Formal判定すると、コーパスの質や量に依存して結果が異なりそうだが問題にならないか。

Q: 日本語で尊敬語/謙譲語とかどちらもフォーマルだと思うが、どちらも使い分けられなければいけないと思う。そこは処理している?
A: 今回は考慮していない。うまく組み合わせればできるのでは。

Q: 「正解」というのはどう決めた?
A: 単語毎の正解率で評価した。単語の前後を見て「意味が変わらず、言い換えと判定できたこと」を確認した。人手アンケート調査で正解を判断。
Q: アンケート調査は当てになるのか?信頼できる? 正解の軸を何処に置くか次第だが。自信を持ってカジュアルになってる/フォーマルになってるのかという観点からは気になる。
A: 人の国語能力によって異なると思うが、「学術的な表現/改まった表現/古風な表現」を正解とするように設定した。

Q: 何人で評価?
A: 文は一人。単語は4人。
Q: 4人の一致度は?
A: みていない。
Q: 一致度を出すと先ほどの質問への回答の一つになると思う。

Q: 正解にも2種類あって、意味の変化有無と、フォーマル/カジュアルの2つの側面があると思うが、どっちの方が違いが多かったのか。
A: タグが間違ってるが意味は間違ってるという結果の調査はまだ行っていない。


C2-6 法令文の構造的書き換え ○宇野真人, 島津明 (JAIST)

法令工学:法令の検査検証などなど
 一文が長い/文が複雑/特定の用語や構文を仕様/etc.
解析精度と可読性向上が目的
 法令文を分割し、複数の要件・効果に書き換える
 分割問題:ゼロ代名詞、要件埋め込み文

naltoma: 複雑怪奇だと想像するが、逆に一定の解釈になりやすいように編集された文章なので、ルールベースぐらいで分割しやすいのでは?(妄想)
naltoma: 特定用語については辞書対応するぐらいしか方法が無い?
naltoma: 分割+補正+構成要素タイプ判別する形で「可読性向上」を目指していると思うが、可読性向上のためにタイプ別以外に「情報付加」するアプローチは考えられないか。

Q: 法令文で要件・効果というのはかなりのケースで複数が併記される?
A: そう。定義でも併記がある。
Q: 一般の文に適用して、因果関係にも応用できるかなと思いながら聞いていたが。
A: かなり強い制約なので、一般の文だと当てはまらないケースが多いように思う。


C2-7 Supervised Recognition of Entailment Between Patterns ○Kloetzer, Julien, De Saeger, Stijn, 鳥澤健太郎, 佐野大樹, 後藤淳, 橋本力, 呉鍾勲 (NICT)

QAシステム一休
strong entailment recognizer: 例「パリはどこにありますか」「パリはフランスの首都である」
先行研究:教師あり/教師無し学習
 例文を認識できない
提案:Surface features+Distributional similarity+Lexical features

Q: 実験の前提が分からなかった。9500パターンでentailしているものを9500から選ぶ?
A: 選ぶのではなく、その中に半分弱40%ぐらいはentail。それをYES/NOで見つけるタスク。
Q: こういうlexicalな問題はなかなかsuperviseできないだろうと思っている。かなりバイアスがある。語彙のオーバーラップもある。選ぶというタスクだとこんなに良い精度にならないんじゃないかなと。
A: バイアスがかかってるのはその通り。3つの名詞対はシェアされてて、それが選択されやすいというのはその結果。similarはlexicalオーバーラップが高い。otherについてはまだ改善の余地がある。「XのY」に関するとオーバーラップは殆どない。
A: オーバーラップある方は精度高くなりやすいが、それでも高々6割ぐらい。


C2-8 含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識 ○宇高邦弘, 山本和英 (長岡技科大)

テキスト中の一部の表現から含意関係認識可能な場合がある
 含意要因となる表現と仮説を抽出(人手)->抽出した対を用いたテキスト含意認識
 抽出した対の特徴
  頻出した特徴:「の」結合名詞、包含、述語含意
 文節対毎に照合

naltoma: オープンテストでどうなる?
naltoma: コーパスの質と量の問題?(十分な質と量がそもそも揃えられる?)それとも手法の問題?

Q: こういう分析は重要だと思うが、実験結果の通り十分ではなかった。汎化の必要性もあるようだが、今後のストーリーは? PASCAL3だったかでは、どういう情報が役立ったかといった情報を公開してるはず。そういうのを参考にすると良いのでは。

Q: 単語クラスタリングで汎化するような話をやっている。Wikipediaを自動生成するとか。でも上位下位関係の方はなかなか使いづらい、性能もなかなかあがらない。元になってるデータが悪いだけかもしれないがまだ良く分からない。良い国と悪い国みたいなのが比較的綺麗に分かれると思うが、こういうのはなかなか上位語では分け難い。こういうアプローチ自体があまりうまくいかないのかもしれない。

Q: 汎化しただけの状態で試すという一番緩いパタンで試し、どの程度の適合率かを見るのか一つのやるべき道だと思う。

Q: かなり真剣に分析したと思うので、今夏の情報を公開されると役立てられると思う。


C2-9 大学入試センター試験を題材とした含意関係認識技術の評価 ○宮尾祐介 (NII), 嶋英樹 (CMU), 金山博 (日本IBM), 三田村照子 (CMU)

NTCIR9 RITE で含意関係認識評価タスク。サブタスクとしてセンター試験が題材。
知識を問う問題:人なら教科書を見れば答えられる(学習して知識を得ている。それをテキスト問題に適用)
 記憶していることと問われていることが意味的に一致しているかどうかを認識するタスク
 4月に一般公開予定
問題の分類
 含意関係以外:語・フレーズや年代を問う問題、非言語、読解問題、根拠が見つからない、、、
 NTCIR10 RITE2を企画中: @NTCIR10_RITE
  t1を明示的に与えるのではなく、Wikipediaなり情報源参照して適切な箇所を探し出すことが必要なタスク
  NTCIR9でのデータは申込時点で使えるように提供する
含意関係タスク以外にも詳しくは金曜午前D4セッションで他の発表も。

naltoma:

Q: ネガティブ、Noになるようなデータはどうやる?
A: 根拠になるようなものがなかなかない。基準としてはまず矛盾するものを探す。なければテキストから探すという2段階。

Q: 正答率が案外悪くないというのは良く分からない。それに関係しているかもしれないが、根拠が見つからないとは?
A: 含意関係認識を判定する時は個別にYES/NOで判定。試験問題の場合はYYNNとなったらconfidenceが最も高いYを出す。ちゃんとは見ていないがそこで救われている可能性がある。
A: 根拠が見つからないというのは、Nの例は適当なものを持ってきて良いが、Yなのにも関わらずそれに相当する根拠が見つからないというパターン。

Q: 誤りになってるt2に対してt1を与えるというのは分かったが、カバーされてないものとして事実でないものを与える必要は無いか。(**解釈誤ってる可能性高いです**)

Q: 同義(両方の概念)と含意のt2->t1というのが一杯混在していて、結構同義が多いと簡単になるが、本当の含意になると難しい。修飾語とかを見ていくとかしていく。
A: 両方の概念というのは殆どなかったように思う。必要な場合は複文で用意しているのでentail関係が多い。

言語処理学会第18回年次大会(NLP2012) チュートリアル日レポート

火曜日, 3月 13th, 2012

自然言語処理学会第18回年次大会(NLP2012)のプレイベント(チュートリアル)」が始まりました。全体スケジュールとしては以下のように進むようです。

・3/13: チュートリアル(2セッションx2)
・3/14: 本会議第1日(通常セッションx2、ポスターセッション)
・3/15: 本会議第2日(通常セッションx1、ポスターセッション、招待講演x2)
・3/16: 本会議第3日(通常セッションx2、ポスターセッション)

今日のチュートリアルは、乾先生の意味談話処理、鹿島先生のネットワークと機械学習に参加してきました。スライド資料も配布された(リンクも下記掲載)ので、この記事では会場でのQAや、個人的に感じた疑問/感想などの備忘録がメインです。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>


(T-a) 3月13日(火) 13:00-15:00 (603講義室)司会:ジェプカ・ラファウ(北大)「大規模言語資源時代の意味談話処理」乾健太郎 氏(東北大学)

チュートリアル資料: PDF

合理主義(古いAI)->知識獲得のボトルネック
 経験主義(統計的機械翻訳/情報抽出)
  情報爆発->大規模な知識獲得
   うまくいけば推論/意味談話解析に繋がると期待
大規模言語資源のインパクト
 (1)外部資源の利用
  naltoma: どのタイミングでどの資源を参照するかをどう決定する?
 (2)意味解析モデル構築と知識獲得の融合(今回のメイン)
 (3)実応用の広がり

1. Annotation layer cake

 レイヤー毎に最適化。
  述語項構造から「より統合された意味処理」には大きな飛躍がある。

2. 情報抽出と知識獲得の今

 「情報抽出モデル=抽出パターン集合」->パターン収集
 様々なアイデア:単一文書からの抽出->複数文書からの抽出(大規模化)
  十分に大きくなると、意味解析がオープンドメインでできるのではないか。
  単語-パターン行列
  ペア-パターン行列
   ブートストラップ->意味ドリフト(意味曖昧性)->多様な手掛かりで解消
    抽出対象は明示的な関係のみ。
    モダリティ(事実性)、時間、量化等との統合。
 明示的関係をパターン抽出(従来の意味解析相当?)+非明示的関係を同定(従来の談話解析相当?)

 naltoma: パターンの組み合わせや解釈が意味?解釈をどうやる?
 naltoma: こうして得られたパターン集合が「知識」?
 naltoma: 「知識/パターン」は不変固有のものか?

Q: スケールアップするかどうかという話で、30万件というのは確かに多いがまだまだ沢山必要だと思う。時々マニュアルチェックで落としたりしながら半自動抽出しているとのことだが、スケールするぐらいのコストでやれそうか?
A: そこは大切な観点だが(著者本人ではないので)分からない。述語項構造が一つのキーになっているが、それとは別のパスがfeasibleになってきているというのが今回の紹介。
Q: 意味ドリフトの「多様な手掛かりで解消」という話があったが、そこで与えられるパターンは人手作成?
A: ブートストラップによる自動抽出。学習。人手でやってる所もあると思うが。
Q: マック型の情報抽出の場合はタスクを設定されている。一般化可能か?
A: 非常に大切な観点で、答えはないが第4章で話してみたい。

3. open issue) Making the implicit explicit

 非明示的な関係の例:含意
  まだまだこれからという状況
   手続き的アプローチ: semantic enrichment
   論理ベースのアプローチ: interpretation as abduction
    スケーラブルな推論エンジン

 naltoma: 「含意関係認識」という切り離してタスク設定することにより見逃しているタスクはないか?(他にどんなタスクが必要か?)

Q: 知識関係をロジックで書くとき、度合いみたいなものはどうやって扱う?数値を入れたりする?
A: 基本的に非常に難しい、誰も解けていない問題だと思う。ロジックに関しては、マルコフの例では確率を導入しようとしている。尤度関数を学習する等して扱おうとしている研究例もあるらしい。
Q: モダリティも同じ枠でやる?
A: モダリティ、可能性の所まで行かなくても真偽判断みたいなレベルでのパターンで一部は可能。全部やれるかというと難しい。どうすれば良いかはまさにこれから。
Q: abductionの所で仮説評価関数も多分学習可能だろうという話だったが、評価関数というのはそれが備わると「良いinterpretation」というのを判断できるようになる?
A: 恐らくその通り。仮説の良し悪しを重み付け学習するということだと思う。
Q: 皆が納得できるような「これは入っているべき」というのもあると思うが、逆に深読みし過ぎとかいろいろバリエーションがあると思う。研究者としてどう切り分けるか。
A: 問題。生成問題として切り分けて考えることもあるかもしれない。難しいからこそ研究対象になっている。問題の落とし方が今後の大きな鍵になると思う。

4. open issue) やわらかい記号の世界

 実体/関係のクラスをどう決めるか:さじ加減/粒度問題
  データベースを参照可能な、量化を含む意味表現の学習: semantic parsing + interpretation
   陽に構造与えなくてもある程度学習できる
  クラス粒度を自動選択
 ドメインオントロジー無し
 ラベル無しクラスタリング
 クラスタも作らない
  ベクトル空間モデル、語の意味を文脈ベクトルで表現: compositional distributional semantics
 ラベル無しの意味表現だけで自己完結できるか?
 Propositional & Distributional semantics の融合?

 naltoma: 汎用的なクラスというのは環境依存で設定可能かもしれないが、ある所で頭打ちにならないか?(環境依存したものは汎用的なクラスになるか?)

Q: クラス粒度の話があったが、クラスタリングにしたからといって粒度の問題を解決できるとは思えない。どの粒度にするのかという話が必要では。
A: その通り。一方で、人間が決めた記号/ラベルが必要ではない世界も考えれる。ラベルの話。
Q: パターンというのに焦点が当たっていたと思うが、パターンを定義、整理できるか。
A: トップダウンな定義はないと思う。実際に起こっていることは、元々は表層の単語列やスロットがあって、古典的な情報集出があってそれが拡大解釈されてきた。素性の組み合わせで表現するというのはかなり一般的なパターンと考えられるが、実はもうパターンと呼ぶべきではないかもしれない。今回は簡略化するためパターンと呼んだ。特定ドメインで調整するというところからオープンドメインで重み調整するという時代になってきた。
Q: このあたりが意味処理の進展ということ?
A: レイヤー毎にもいろいろ起きているとは思うが、今回のストーリーでは尖った所に焦点を当てた。

5. ルールを作る所から

 レイヤー毎に精度向上目指すというルールを作っているのは誰か?

naltoma: 「常識的な知識」は記述しきれるか?
naltoma: 直接的な記述無しに処理する「自然言語処理」は?
naltoma: 自然言語を通した「理解」には正解があり得るのか。入試問題のような「できるだけ誤解しないように編集された文章」は例外的で、多くの状況では「個々人が相手に伝わっている/相手の意図を解釈出来ていると思い込んでいる」だけに過ぎず、実際どのように「理解」しているかは微妙な気も。数学的に解釈可能な自然文だけに制約されていないか。(根拠のない妄想だけど)


(T-c) 3月13日(火) 15:30-17:30 (603講義室)司会:高村大也(東工大)「ネットワークと機械学習」鹿島久嗣 氏(東京大学)

チュートリアル資料: PDF

ネットワーク構造を持ったデータを扱う機械学習問題を、
 {内部,外部}ネットワーク x {ノード,リンク}推論
の4通りに分類。
いろんなモデルについて、どういう仮定の下でどういう構造を学習しているか。

スコープ1: 内部/外部ネットワーク

 内部ネットワーク: 注目するデータ単位の内側にあるネットワーク構造
 外部ネットワーク: 外側にあるネットワーク構造、e.g.: ソーシャルネットワーク

 naltoma: 内部/外部は解析対象という概念で切り分けられているが、この切り分けは自明?

スコープ2: 個々のデータに興味がある内外の関係に興味がある

スコープ1 x スコープ2
 内部ネットワーク: 部分構造に注目した線形モデルの拡張
 外部ネットワーク
  ペアワイズ予測/マルコフネットワーク
  潜在変数モデルラベル伝搬

 naltoma: 候補モデルがあるが、これらを一通り試して合算すると「全体を知る」ことになる?(抜けてる解析対象は無い?)

分類のためのモデル: 線形識別モデルはすべての基本

 部分構造袋表現: 組み合わせ的に数が増加
  パタンマイニング法: 重要な部分構造だけ取り出す
   最初の「組み合わせの多さ」をうまいこと解決する必要がある
   連続値ラベルには少し弱い(離散化が前提)
  カーネル法: 類似度ベースのモデル
   カーネル関数をうまいこと設計する必要がある
   学習後のモデル適用時の計算量がデータ数に依存

データ内の構造にフォーカスした解析: パタン発見と構造予測
 構造予測は、モデルの出力候補が指数的に多い。分類モデルを直接的に適用するのは困難
 CRF/構造化パーセプトロン: 線形識別モデルの拡張
  素性ベクトルの設計を工夫: 入力と出力が組みとして正しいかを測る
   素性を絞ることで、動的計画法等を適用し効率化を測る

外部ネットワークを持つデータの解析

 個々のデータにフォーカス: ノード分類、ノードクラスタリング、ランキング
  ラベル伝搬法(ノード分類:隣は似ているという仮定)
  マルコフネットワーク(ノード分類:隣は似ているとは限らない、より一般的なモデル)
 関係データのフォーカス: リンク予測、構造変化解析
  リンク指標(リンク予測:2つのノードが共通にもつ隣接ノード数で重み付け)
  ペアワイズ予測(リンク予測:線形モデルの2データ組への拡張)
   パラメータ行列Wの低ランク性を仮定し、実行パラメータ数を減らす:ランク、次元圧縮
    解釈:ある種の素性グルーピング
    最適化の観点からは低ランク制約は凸集合の与えない
     トレースノルム(特異値の和)制約(L1ノルム制約)で間接的に低ランクを解く
 両者に共通: マルコフネットワーク(より一般的なモデル)
  行列/テンソル分解、確率的ブロックモデル(潜在変数モデル)

潜在変数モデル: ノードの潜在的な状態を仮定するモデル

 2つのノードないし局所的な構造を用いる
 連続的な潜在変数: 行列分解、テンソル分解
  協調フィルタリング(GroupLens): 暗に行列の低ランク性を仮定?
  低ランク性を仮定して行列分解
   特異値分解は全要素が観測されていることが前提
   補完問題の場合:適当に埋めてから分解/EM的繰り返し(埋める分解)
   大規模データの場合:観測部分のみから確率的勾配法
   凸最適化として解く場合:トレースノルム制約
    *スケールしないので時と場合による
 離散的な潜在変数: 確率的ブロックモデル(静的)
  各ノードに離散的な潜在状態が与えられる
  潜在状態の組みに応じた確率でリンクが張られる
  混合メンバシップモデル: リンク毎にノードの役割が変わるようなモデル(動的)
   解釈
    LSI: 連続的な潜在意味のインデクス
    LSIの離散版がpLSI(確率的ブロックモデル)。
    混合メンバシップモデルがLDA。

テンソル(多次元配列)分解:他ノードの関係の表現

 例:関係の時間的変化(顧客、商品、時間)
 テンソル分解:行列の低ランク分解の一般化
 CP分解:特異値分解の自然な拡張(コアテンソルが対角;正方)
 Tucker分解:よりコンパクトな表現(みっちりコア;各モードの次数が異なる)
 応用事例
  ソーシャルネットワーク分析(人x人x時間)
  タグ推薦(人xWebページxタグ)
   Webページに付けるタグを推薦
   人によってタグの付け方には個性がある
 課題:組み合わせの数が組み合わせ的に増加
  低ランク仮定だけでは足りない
  観測が粗になっていくと予測精度の悪化が顕著
   低ランク性+外部情報の利用「隣は振る舞いが似ている(ラベル伝搬)」

Q: テンソル分解で時間を入れるという話があったが、例えば時間変化を入れるというのは、時間の順番が必要そうだが入れ方に工夫があるのか。
A: 時間的に連続しているから入れるべきだという考え方もあれば、周期的な繰り返しに意味があるとして入れるという考え方もあり、導入方法自体が一つの発見でもある。一つの例がラベル伝搬的な考え方。

Q: リンク予測で、のーどを予測するというような話がないか? リアルには存在しているけどSNSには存在しないとか。リンクが欠けている場合ではなく、ノードが欠けている場合。
A: そういう問題を解いている例はある。問題としては難しい。多くの事例があるわけではない。

Q: リンク予測やる時に最適化問題として解くと、欠損部分がないという状態で解くのは気持ち悪い。問題としてはリンクが無い状態で学習しているにも拘らず、リンクが無い場所を予測しようとする問題の建て方?
A: 扱い方にもいくつかある。リンクの有無を正例/負例として扱うこともあるし、PositiveかUnlabeled(分からない)として扱う場合もある。現実的には適当に持ってきて負例にするケースが多いかも。
Q: 過学習とかも問題にならない?
A: できることには限界がある。結果的にはゼロの所は半分負例と考えていることにもなったり。

Q: テンソル分解でネットワーク予測ではCP分解の方が精度通いという話だが、その理由は?
A: 経験的にそうだというぐらいの話。Tuckerでは直行性が悪さをしている可能性があるかも。
Q: データによって異なる?
A: 確認したソーシャルネットワーク、タグ推薦では限定された範囲だがCP分解の方が良かった。

Q: 自然言語処理で行列上のパラメータを扱ったものがでてくるのではないかという話だったが、1次元のベクトル上だったものが行列上になるとカーネル法が使われたような形で凄いスパースなものになる。そういう意味でカーネル法があった。これから粗な行列を扱うにあたって、何らかの解決がされているのか、何らかの対処が必要なのか。
A: 低ランク性とかが対処の一例。実質的なパラメータの数を抑える。

Q: グラフのデータが商用的にもはやっているが、SNSとかでの大規模なデータではどういうツールなりを使っている?
A: 個人的にはそんなに大きなデータは使っていない。
Q: 大規模化しないといけないというような話はある?
A: 大規模化というのは当然考えるべきことではあると思うが、個人的な興味で言うとモデル自体に興味がある。

naltoma: グラフやネットワークとしてどう表現するか自体が一つの問題では?(ノードやリンクの定義無しに推定する?)
naltoma: ノードの存在推定もできる?(意味のある推定?)
naltoma: グラフとして表現してしまった時点で情報が編集されてると思うが、これは人間が理解するモデルとして妥当か?(自然言語処理として目指すゴールとしては妥当?)

naltoma: 「自然言語処理」のゴールって何だろう? 頭脳プロジェクトでの「一般的な高卒レベルであれば読んで解釈できる」とかってゴールはある程度想像しやすいけど、こういうのって「実はロジックで記述可能な文章」に制限されてたりしないんだろうか。根拠のない妄想だけど。

情報処理学会 第74回全国大会 を振り返る

土曜日, 3月 10th, 2012

情報処理学会 第74回全国大会が日程上終了しました。

上記レポートでは基本的に質疑応答を中心とした備忘録がメインでした。

この記事では、「聴講した発表」で興味深かった内容等について整理します。

整理といってもピックアップしながら何が面白かったか(どういう視点で見てたのかとか)をコメントとして残しておくだけですが、いろんな視点があるんだよということをこの記事読んでる学生に少しでも伝わると嬉しい。

Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents ○ Yimin Chu(東大),高須淳宏,安達 淳(国立情報学研)
PDFが与えられた時に機械的に「意味的に繋がりのある箇所をグルーピングしていく」という話。目新しさは感じなかったけど、人工頭脳プロジェクトみたいなケースでの「用紙を見たときに論理構造を自動で抽出したり、図表イメージ等を説明文と紐付けて解釈する」ところでは必要になる技術だよなという点で「残されてる課題」が何なのか気になりました。図と説明文を紐付ける方は、NIIの「テキストからの物理モデル生成に向けて」で話を聞けると思うので、楽しみ。

中学校レベルの数学の文章題を解くシステム ○箕村大輔(電機大)
同様に人工頭脳プロジェクトを意識して聞いてました。この発表は「(有理数の演算で解くタイプの)文章題を解く」というソルバ自体の提案。この手のアプローチにおける根っこは数理論理学で、実際にテキスト解析しながら論理式&論理記号に変換するところをやってるという理解で合ってるのかな。そうだとして、似たようなアプローチが多々あるんだろうけど、既存アプローチでの問題点などが気になるのと、「直接文章には現れない【常識を加える】ことで不足知識を補う」ところを手動でやってるところは残念。いや、手動でやっても良いとけど、対象としてる「中学校レベル」では(a)どのぐらいの数が必要なのかが想定できているのか、(b)そもそも時間かければ解決できる問題なのかといった意味での「記述可能性」が気になる。

質問応答システムにおける再検索を用いた回答候補の抽出手法 ○油井宣明,福本淳一(立命館大)
アプローチはともかく「ユーザがシステムに入力した質問文中に情報が不足している場合」という視点に共感を覚えました。全部が全部じゃないですが「特徴ベクトルで類似度云々」という話であれこれ処理しようとしてると「どういう処理であれ特徴ベクトルが適切に構築されている」という前提が必要になるんですが、そうじゃなくて「不適切だったら適切になるよう作り直そう。必要なら情報源広げよう(バイアス/縮小/集中しよう)」という設計指針で動くシステムであっても良いわけで。

冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化 ○佐藤裕也,豊田哲也,延原 肇(筑波大)
一種の要約・サマリ生成タスクだと思いますが、こういう「まとめる」タスクにおいて「何を除外するか、どういう視点でグルーピングするか」といったことまで含めて半自動化で指示しながら整理できると嬉しそう。

マイクロブログ上の中心的話題とそれに対するユーザの反応の抽出 ○藤川智英,鍜治伸裕,吉永直樹,喜連川優(東大)
Google trendsbuzztterを合わせたような話。堀川くんがやってるテーマに近いですが、こういう話を聞くと抽出漏れや痒い所への手の届き難さが気になってしまいます。2chまとめサイトみたいなものでも良いですが、まとめる人(システム)毎の面白さがあって良いと思いますが、ユーザが操作できる余地を用意できないかなーと。

準天頂衛星を用いた防災情報配信システムの設計と有効性検証に関する研究 ○原田貴史,石田剛朗,楠田哲也,神武直彦(慶大)
めちゃくちゃ細い回線上に一方通行な回線(約6秒に1回250bit程度)だけど、アジア・オセアニア全域カバーできることもあって、何かしら防災に役立てられないかという話。具体的なオペレーションが(多分)設計できてないようですが、グリニッジ標準時みたいに何かしら世界標準規格化できると便利になりそうな予感。

日本語のやさしさの自動推定のための特徴量に関する基礎的検討 ○張  萌,伊藤彰則(東北大),佐藤和之(弘前大)
日本人の観点で作られた「やさしさ」が本当にそう感じられるのかが分からないということで、実地調査含めた検討をしたいという話。原語と意味や発音が異なることが多い「外来語」が「やさしさ」に比較的相関しているとのこと。「理解する/誤解を生じ難い文章」という観点での「自然らしい文」が推定・自動生成できるようになると嬉しいよね。

文字列間の前処理付きオフライン全文検索エンジン類似度距離 ○佐藤 哲(楽天)
「消費者-広告代理-出品者」という3者間のマッチングを改善するため、「消費者が検索時に入力する任意の文字列」と「出品者が用意するコンテンツ」のマッチング精度向上したいという話。去年発表したという「対象分野に特化した類似度計算」(多分これ)の続きで、記憶容量&計算コストを改善したらしい。情報源依存でスコアが異なるので類似度の適切さについても要検証だと思うけど、なるべく汎用性のある類似度したいならGoogle辞書なり使うだけでOKという立場で、ドメイン/コミュニティ特化類似度みたいなのを目指しているっぽい。

係り受け構造アライメントを用いた文間の差異箇所認識 ○小林幹門,篠崎政久,加納敏行(東芝ソリューション)
開発ドキュメントなど、文書間の不整合箇所を確認する作業に膨大な時間と人的コストが大きいし、修正する度不整合箇所発見タスクが生じて以下略な状態なのをなんとか簡素化したいという話。現場ならではの具体的なタスクだよね。去年のNLP年次大会で聞いた実務翻訳で耳にした翻訳メモリと類似タスクにも見えるのだけど、どの辺りに違いがあるのかしら。

複雑ネットワークからのキーワード抽出 ○三澤英樹,大沢英一(はこだて未来大)
コーパスを使用しないキーワード抽出という視点は面白いけど、こういうアプローチで「抽出されたキーワード」というのはどういう特性を有するのだろう。普通、「特徴的な」とか「良く使われる」とか何かしら相対的な特徴があって初めて「このコンテンツならではの特徴」というのが見えてくると思うのだけど。

知的ヘルプシステムのための意味を考慮したテキストマッチング手法の改良と評価 ○柿間俊高,村松幸樹,杉本 徹(芝浦工大)
語彙的マッチングのアプローチとして、「概念付与+係り受け解析+深層格付与」という流れに「なるほどー」と思いながら聞いてました。ちゃんとした評価までやれてないようですが、割とざっくりとした方法でも十分な結果が得られたりするのかしら。

ストーリー性を考慮した映画あらすじからの類似度計算 ○村手宏輔,黒岩眞吾,堀内靖雄,篠崎隆宏(千葉大)
「あらすじ」というコンテンツを「語彙的な類似度+ストーリー性の類似度」で検索したいという話。実際問題としてあらすじマッチングがどれぐらい有益かは分かりませんが、時系列データとしてのマッチングに「語彙的な意味も加味」している点が面白い。語彙は「映画のジャンル20種程度を素性とする特徴ベクトル」として表現していた気がして、TFIDFみたいな「コンテンツ毎に特徴量が異なる」形式ではなく固定値での扱いでした。それにも関わらず、ストーリー性をDPマッチングで考慮することでマッチング精度としては向上しているらしい。どちらの要因がより強いのかも気になりますが、とても面白い試み。

共起ネットワークを用いたクラスタ性によるテキスト分類○小林雄太,村上裕一,中村真吾,橋本周司(早大)
クラスタ係数に基づく分析で「テキスト分類」できないかという話。ちょっと無理筋というか、別指標持ち込まないと無理なんじゃないかなとは思いつつ、このアプローチで分類される結果にどういう意味があるのかという解釈を考える(自動解釈する)のは楽しそう。うまく記号化できないという点で、ある意味人間の脳内でやってるような処理に近い側面もあるのかなー、的な。

情報処理学会 第74回全国大会 3日目レポート

木曜日, 3月 8th, 2012

あつた蓬莱軒安定して美味しいよね(参考)。

ということで、情報処理学会 第74回全国大会 3日目の参加記録です。

全日程を通してのサマリは後で別記事として書く予定。

最終日である3日目は、
 ・(堀川くんが発表するので)一般セッション[5C会場] 自然言語処理
 ・学生セッション[6T会場] 検索・分類
に参加してきました。以下、その参加メモになります。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
一般セッション[5C会場] 自然言語処理

学生セッション[6T会場] 検索・分類


一般セッション[5C会場](3月8日(木) 9:30〜12:00) 自然言語処理 座長 佐藤 理史(名大)


5C-1文字列間の前処理付きオフライン全文検索エンジン類似度距離 ○佐藤 哲(楽天)

消費者:出品者:広告代理での文字列検索
 編集距離、コサイン距離、Jaro-Winkler距離、q-gram距離
記号列間の表記的な類似性だけではなく、意味を考慮した類似性の測定
 WordNet距離、圧縮距離、説明文距離、Google距離、正規化Lucene距離(NLD)
記憶容量コスト、計算コストが高い
 前処理:日本語問題の解決、情報量圧縮など
  情報圧縮:出現ページ数(ページ内出現回数はカウントしない)
  NokogiriでWikipedia XMLからコンテンツ抽出
  Luceneで検索インデックス作成
  LuceneとIgo-AnalyzerでWikipediaコンテンツ検索し、NLD算出
 メイン処理:高速に文字列間の意味的な類似度距離測定:NLD

naltoma: 類似度算出の情報源をWikipediaとすることによるバイアスがかからないか?
A: Google辞書使うとバイアスはかなり削減される。オフラインに拘ったのは商品に特化した距離を作りたいから。

Q: 前処理で高速化することで前回の結果と異なるのは何故か?
A: LuceneがデフォルトでTFIDFスコアリングをしているらしい。今回の高速化ではページあたりの語数を0,1にしているため、カウント数が減るとTFIDFが異なる。
Q: タイトルが「類似度距離」になっているが、類似度と距離は相反するようなものに感じる。Similarity Measure。


5C-2映画鑑賞の道案内システム ○塩崎浩二,浦谷則好(東京工芸大)

従来:売れ筋/ジャンル/制作年代ベースで推薦される
あらすじマッチングによる推薦
 連想検索エンジンGETAによるマッチング

naltoma: いわゆるコンテンツベース推薦?
naltoma: 「映画あらすじ」固有の特性はあるのか?(シリーズ枠がその一つだと思うが、他には?)
naltoma: 検証実験では関連性が平均値2.59と比較的低いように見えるが、素性として採用した単語を「自立語」に絞り込んだのが問題なのか、特徴量に問題があるのか?
naltoma: そもそも「関連性」とは?

Q: 興味があるものは「映画の内容が似ている」という前提があるようだが、実際には内容が似ているかどうかとは関係ないのでは。監督が同じでも内容が違うとか。ジャンルの類似とかなら分かるが。
A: 推薦映画として相応しい推薦ができたかという指標だが、何を元にして探すかということで手掛かりの一つとして「ある一本の映画を知っている」から出発して似ている映画を探す、連想検索するということを想定した。
Q: 連想していくとのことだが、何故一つの映画に絞って入力させるのか。複数入れることは考慮しない?
A: 見たい映画のイメージが「アクション映画で/アメリカで」のようになると既存の検索システムで検索できる。自分で、特にイメージがない「何か面白いものがないかな」という状況を想定。
Q: それでも一つに絞る必要性はないように思う。

Q: こういうシステムって正解がないので評価は難しいと思うが、設計する時にどういうのが出たらワークしたと評価するのかに依存すると思う。設計指針をどうするのか。どのぐらい「関連があるのか」もそうで、このあらすじで十分連想できるようなテキストになっているのかどうかも出せれば良いかもしれない。レビューが似ているから興味を持てるとは限らない。その辺りの哲学を持って設計するべき。


5C-3Twitterからの談話自動抽出 ○堀川敦弘(琉球大)

Q: 形態素解析で単語分割してるが、Twitterだと辞書に無い語がどんどんでてくるので、辞書チューニングでも限界がありそう。どうしてN-gramを利用しないのか。
A: N-gramでの共起でも良いと考えているが、N-gramで試したことが無い。どんどん増えていく語に対する対応はGoogle Suggest APIで対応できるのではないかなと考えている。
Q: 大前提の共起を用いるという事に対して問題を感じる。長い文章だと有力だと思うが、Twitterのように短文だとあまり役に立ってないのではないか、今回の結果は偶然じゃないか。
A: 取ってきたい談話が長くなってしまった場合、共起が発生せずに取りのがしてしまうなどのことが頻繁に起こるかもしれない。同時に母集団の中で会話をされると難しい。
Q: Seed Tweet Setってどのように作った?
A: 抽出したい談話に関するツイートを人手で選択する。
Q: 談話抽出というとAさんとBさんの議論を抽出したいと思う。全く関係ないCDさんのも一緒くたになってしまって一緒に議論しているように抽出されてしまうのでは?
A: その可能性は高い。それを緩和するというわけではないが、ツイートを見た人を母集団として加えていくことで緩和できると思う。
Q: ホットエントリ、バスッターのような言葉に議論する事がありそうdが、どのように分離する?
A: 皆が同時に「バルス」といったときどう分離するかという状況だと思うが、具体的な手法はイメイージできていない。
Q: 140ツイートをどう集めたか?
A: 談話の開始と終わりは検知していないため、人手で与えている。リスト内全ユーザの時間内全ツイート。
Q: 全ユーザに適用するのは難しい?
A: そこは考慮していない。

(良い意味で予想通りの指摘/コメントを貰えてたので、外部からの刺激や交流になったという点でとても良かったんじゃないかと)

堀川くん自身による振り返りレポート: IPSJ74発表に対するコメントなどの考察


5C-4著者推定による文章の特徴解析 ○國廣直樹,長谷川智史,穴田 一(東京都市大)

文献の心眼問題:シェークスピア別人説
文章には人それぞれ特徴がある:過去は主に筆跡
 電子化に伴う新たな特徴量の明確化
先行研究:2-gram, Tankerd距離
今回:品詞n-gram出現確率、単語長n-gram出現確率

Q: 単語長n-gramを使ってるが、著者は文字の長さではなく読んだ時のリズムで書いてるように思う。単語文字数ではなく読み数、モーラ数使うとどうか。
A: 読み文字数についてはこれからやろうと考えているところ。
Q: 学習テキストと知りたいテキストの長さが結構効いてくるということが分かっている。今回のはどのぐらいの長さのテキストか。
A: 短いもので3千字、長いもので3万程度だったと思う。青空文庫。短編小説が多いはず。
Q: 30人エッセイのコーパスで、3万字。1万を学習にあてるとだいたい間違いなくあてられた。言語モデルを使ったもの。去年/一昨年のNLPで発表したので参考まで。


5C-5係り受け構造アライメントを用いた文間の差異箇所認識 ○小林幹門,篠崎政久,加納敏行(東芝ソリューション)

開発ドキュメントなど、文書間の不整合箇所を確認する作業に膨大な時間と人的コストが大きい
 修正起こる度に不整合発見タスクが発生
  類似した内容が記載される文章間に不整合が含まれやすい->自動検出 [小林2011]
  差異が生じる箇所を目視で確認するコストが高い -> 差異検出
語幹と係り受け構造から共通部分検出
アライメントが行われなかった箇所(差異箇所)検出
補足文生成

naltoma: 翻訳の例で「単語の使い方」を例文表示するようなシステムがあるかと思うが、そういうタスクと類似問題として設定した?

Q: 「関し、」と「関する」では大きく異なるから検出しなくてはならない例では?
A: そうだが、見る人が「どれだけ影響を与えるか」を考えてのこと。
Q: 法律に関するものなので、検出すべき。

Q: 差異箇所をどう定義しているか。法律文について研究しているが、普通に読んでても気づかないものもある。
A: 差異箇所の定義としては、二つ文を比較した時に漏れがあるもの+同義語や相違。法律というドメイン固有については今は考慮せず一般文書としての扱い。特有言い回しについては専用辞書構築などで対応したい。

Q: 確認だが、今回のシステムは「非常に似ている2つの文を入力してもらう」ことが前提?
A: その通り。


5C-6SVMによる学習とタイプ分類パターンの組み合わせによる固有表現抽出手法 ○尾田俊弘,福本淳一(立命館大)

[Sekine 2004] 150種類の固有表現タイプが定義
固有表現特徴をSVM学習+固有表現範囲同定
素性
 全ての単語を対象
 品詞、文字種、単語自身
 2つ前〜3つ後の計5単語を1セット
パラメータ
 2次の多項式関数(組み合わせで学習)

Q: 人名と地名の関係で、空港に人名がつくケースとかあるが問題にならなかったか?
A: 述語に相当する動詞を見ることで判断できる。会社名だとソーシャルなものがあったが、文脈から判断が可能と考えている。
Q: 文脈を見ないと判断できないものがあるというのものは分かっているが、それがどのぐらいあるか?数パーセントなのか結構あるのか?
A: 具体的な数値は分からないが、詳細タイプ分類ができる例という点では多く見られた。
Q: 固有表現抽出は山のようにあるが、現時点でどのぐらいできてるのか誰も示していない。トップレベルの数値なのか、今までのトップには勝てていないのか。
A: 9割を示しているものもあるので負けている部分があると思うが、今回は詳細タイプ分類をしている点でメリットがある。
Q: 150種類分類する研究自体が無かった?
A: その通り。


学生セッション[6T会場](3月8日(木) 14:30〜16:30) 検索・分類 座長 秋葉 友良(豊橋技科大)


6T-1ツィッターのデマ率の推定 ○Rattanaxay Keothammavong,青野雅樹,相田 慎(豊橋技科大)

目的:デマの拡散防止
 デマ:関連した曖昧な情報が連鎖的に広まること
デマ判断のための素性定義
 地名/人名/組織/URL/Hashtag/@/固有名詞/代名詞/一般名詞
 曖昧な言葉(きっと/かな/どこか。。。)
 単語感情極性対応表
寄与していた素性(Gini係数)
 感情スコア>RT>その他

naltoma: デマ率を推定する対象の定義は?(特定ツイート?)
naltoma: デマの例1で「浸水」という元ツイートはデマ?
naltoma: 推定結果の誤りが「システム自体の信頼性」に直結するので誤推定を避けたいように思うが、デマである/ではない双方の根拠を提示することでユーザが判断しやすくするなど、工夫できそうなことはないだろうか?

Q: リアルタイムでのデマ率を推定したいと書かれているが、どういう手法を考えているのか。
A: 現時点ではデータセット構築が手動。類似計算コストも考慮する必要がある。
Q: 現在の計算コストはどのぐらい?
A: 5分程度。
Q: 学習データ/テストデータは同じ時期のもの? リアルタイムでやると新しい時期のものを判定することになると思うが、どうか。
A: 現在は同時期でテスト。時系列全体を計算するコスト高すぎるので、リアルタイムでやる場合は時間軸を指定するなどを考えている。


6T-2単語共起を用いたベイジアンフィルタによる中国語文章フィルタリングについて ○鄧 德粤,吉村卓也,伊藤孝行,藤井雄太郎(名工大)

有害文書の自動判別によるコスト削減

naltoma: 有害な文書にもいろんなパターン・種類があると思うが、単一のフィルタリングが可能だろうか?(有害文書の定義は?)
naltoma: 負例データセットが判定しやすいものになっていないか?

Q: 閾値を設定する所について。8千件というのは?
A: データセット1万件から8千件選んで閾値を設定し、残り2千件で評価した。
Q: 閾値はどうやって設定?
A: F値が高くなる値で調整。
Q: 共起を使うことで、計算効率やメモリ使用量についての負荷具合は?
A: 2単語共起で10GBメモリ。サーバで使う分には問題無い程度。
Q: データベースの量が大きくなると圧縮とか必要になりそうか?
A: 実用はまだやってない。
Q: 中国語形態素解析エンジンの精度は?
A: 90%台。
Q: 今回の実験結果は、最終的にはWebデータに使いたい? Webだともっと雑多なデータになっていると思うが。ニュース以外も利用することでより現実的なところで評価すると良いのでは。


6T-3複雑ネットワークからのキーワード抽出 ○三澤英樹,大沢英一(はこだて未来大)

単一文書で自己完備なキーワード抽出
 TFIDF:コーパスの分野が異なる、コーパスが存在しない場合に問題
 コーパスを使用しないキーワード抽出:small world構造に基づく文書からのキーワード抽出
  仮想距離:ネットワーク全体の最大経路長として導入
  共起指標の閾値による構造的特徴の調査

naltoma: 自己完備とは?
naltoma: 論文へ付与することを想定したキーワード抽出のようだが、適切なキーワードとは論文単体で決定されるものだろうか?(付与したいキーワードとはどのようなものか?)
naltoma: キーワードとリファレンスは無関係?

Q: 日本語論文に応用する予定があるか?
A: 今回英語を使用した理由は、日本語の形態素解析で行うとまだまだ難しいという判断。形態素解析精度次第では使えると思う。ネットワーク構成が変わるとは思う。
Q: Jaccard係数を用いた実験のようだが、レアな出現が強すぎる評価となることがあるという報告もある。どうか。
A: ネットワーク校正する時点で規定回数以上のノードに抑えているため、非常に小さな頻度な出現は抑えられていると思う。
Q: 共起指標を調整した時にクラスタ係数が若干増大する箇所が見られたとのことだが、どこで見られた?


6T-4Q&Aサイトにおける情報検索型質問の自動抽出 ○田中友二(芝浦工大),望月崇由,八木貴史(NTTレゾナント),徳永幸生(芝浦工大),杉山 精(東京工芸大)

QAサイト質問タイプ:情報検索型/社会調査型/非質問型
 情報検索型質問の自動抽出

naltoma: 「検索結果に欲しい情報が見つからない」の質問タイプは「情報検索型」? 回答がWebにあるもの?
naltoma: 質問分類した後でどう活用する?
naltoma: 質問に「活用できる/できない」の差はない?

Q: 質問を対象として分類したようだが、回答を見ても参考にならないか。
A: 質問時に分類することを想定しているので質問しか見ていない。
Q: 実際には回答がついているものを選ぶのに使うわけではない?
A: 現時点では質問回答が揃っているデータセットを使っているが、実際には回答が存在していない状況で分類している。
Q: 他の分野でも実験したいとのことだが、分野毎に教師データを用意する必要がある?
A: 用意することで精度が向上するとは思う。ただし、依存しないような特徴語もあると考えているので、カテゴリに依存しないような教師データを用意することを検討している。


6T-5知的ヘルプシステムのための意味を考慮したテキストマッチング手法の改良と評価 ○柿間俊高,村松幸樹,杉本 徹(芝浦工大)

目的:知的ヘルプシステムの実現
自然言語文の意味理解+テキストの言い換え
 適切なヘルプが出力される精度を高める
単語解析(概念付与)+意味解析(概念絞り込み+深層格付与)

naltoma: ヘルプ内の記述が理解できないと意味が無いので、Web上での参考手続きとのマッチングは取れないか?

Q: 有効性はどう判断する?
A: 本来ならシステム化して被験者通して確認したかったが、今回はMRRでのみ確認した。
Q: MRR評価してるが、精密にすることで精度が上がっても再現率が下がっていないか?
A: まだ再現率はチェックしていない。
Q: ルートが一致するというのが必要になると思うが、そこはだいたい一致する?
A: 現時点では大丈夫だが、ユーザ入力文次第では問題になることもあると思う。


6T-6否定文認識による潜在関係検索の精度向上手法 ○落合伸彦,Duc Nguyen Tuan,Danushka Bollegala,石塚 満(東大)

(キャンセル)


6T-7ストーリー性を考慮した映画あらすじからの類似度計算 ○村手宏輔,黒岩眞吾,堀内靖雄,篠崎隆宏(千葉大)

類似文書検索
 文書内の単語の並びが考慮できていない(スラング、言い回しなどによる意味の差)
 文全体の単語の並びを考慮
  ストーリーの差を定量化したい
文書を時系列データで表現+DPマッチングによる類似度計算
 同じ出来事に関係する単語を近いベクトルとなるように設定したい(例:ジャンル)
 未来:SF映画、殺人:犯罪、ホラー
 単語特徴ベクトルを20次元(ジャンル)で正規化

naltoma: 影響伝播モデルIDMみたいな形で分割できない?
naltoma: ストーリー性とは??(時系列考慮してるけど、ジャンルベクトルの推移でストーリーになる?)
naltoma: 単語特徴ベクトルは固定値で求まるもの?

Q: 単語単位になっているが、文法により異なると思う。どのぐらい単語の順序が影響していると考えているか。
A: 最小単位ということで単語を考えた。文章でも圧縮すると単語程度になるので同程度になると判断している。比較はしていない。
Q: TFIDFと比較しているが、圧縮法も異なっている。要因が二つになっていると思うが、そこを区別して比較できないか。
A: 順序を考慮しないバージョンでの比較も検討しているが、21次元ジャンルだけでは測れなかった。


6T-8共起ネットワークを用いたクラスタ性によるテキスト分類 ○小林雄太,村上裕一,中村真吾,橋本周司(早大)

共起ネットワークを定量的に評価したい
 クラスタ性(クラスタ係数)によりテキストを評価・分類
 ノード=TFIDF上位重要名詞
 リンク=閾値モデル:閾値変更でネットワークが変化
実験
 上位N件の設定次第では「閾値が低い領域」では誤差が大きい
 閾値中盤以降はほぼ類似傾向

naltoma: (妄想)TFIDFを使うことで一種の「経験に依存した重み」というか人間が読み終えた後の感想を抱いたような特徴量になってたりする?

Q: 直接的な閾値、相互情報量とかは使えないのか?
A: ジャッカード係数のようなレア出現単語の影響が強いため、今回は避けた。実際に今回の方法でうまく避けられているかは分からないが、ネットワーク性を測れることを考慮しての選択。
Q: ニュース/小説とか大きく異なる分野などで比較する方が適切にも思う。
A: まず著者によってまとまる要素が違うということを検証してみた。今後そういうジャンルの違いも確認していきたい。

情報処理学会 第74回全国大会 2日目レポート

水曜日, 3月 7th, 2012

正直寒さをなめてて済まんかったと言いたくなる寒さ。風強いと普通に寒いねうん。ごめんなさい。
そして「味噌風味に飽きた」という学生のために適当にぶらついて入ったお店「つくし」が美味過ぎました(参考写真)。名古屋の皆さんが羨ましいです。

ということで、情報処理学会 第74回全国大会 2日目の参加記録です。

あまりにも発表件数多いので事前に面白そうなテーマをチェックしてたり、そのツイートに反応してくれた伊東先生に質問してみたりしながら参加するセッションを検討してました。並列度高いと直接見れない発表が多過ぎるのは残念。。

2日目は、
 ・学生セッション[3R会場] 自然言語処理・応用
 ・学生セッション[4ZJ会場] システム評価
に参加してきました。以下、その参加メモになります。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
学生セッション[3R会場] 自然言語処理・応用

学生セッション[4ZJ会場] システム評価 座長 櫻庭 健年(日立)


自然言語処理・応用 座長 東中 竜一郎(NTT)


3R-1感情判断に基づく物語文章からの感想文自動生成手法 ○町田啓悟(長野高専)

起承転結の4文による一貫性のある感想出力を自動生成したい
従来手法:動詞に着目した手法
 「殴られる」が負の感情に繋がる
意味判断+感情判断の導入。起承転結を個別にNN学習。

naltoma: 要約との違いは?ネタばれ大丈夫?
naltoma: 起承転結で出力することを選んだ理由は?(起承のみ/起のみ生成とか、キャッチコピー生成とかいろいろ手段が考えられそう)

Q: どういう応用を考えている?
A: 電子書籍かされた中から自分の好きな物語を探すため、レビューのようなものがあると便利だと考えた。
Q: レビューがないようなものについても感想生成することでコンテンツアクセスが容易になると感じた?
A: その通り。
Q: 文章から起承転結がどこなのかをどう判断しているのか?
A: 機械的に4分割。
Q: 評価者間の一致度はどのぐらいだった?
A: ほとんど一致していたが、一部異なるものがあった。


3R-2アメリカ合衆国大統領演説の計量テキスト分析 ○青木宣康(東洋大),河村俊太郎(東大),鈴木崇史(東洋大)

就任演説の特徴をカーネル主成分分析+ランダムフォレスト
 テキストの特徴
 テキストへの影響要因

Q: 何を目指している?アメリカの今後の予測分析?解析手法そのものへの興味?
A: 今後のアメリカ大統領選挙演説を見た時に、どういうのが使われているのかが分かれば良いなと考えている。
Q: 特定の定型的なサンプルで検証されてるが、他の国の動向についても同じようなサンプルがあるか?
A: アメリカだと原稿が残っているが、他国だと調べればあるかもしれない。日本首相だと全文残っている。
Q: 戦争前後で使われている単語のバラエティが短くなってコンパクトにという話だったが、ある意味でアホ向けという印象も受けるが、こういうのは他国でもそういう傾向があるのか、戦争前後での違いとか何か一般的な話に広がると面白そう。
Q: カーネル主成分分析でプロットした図はどうやって距離を求めたのか? 距離をテキスト解析して求めていると思うが、類似度をどう求めたのか?
A: 相対頻度から特徴ベクトル生成し、パラメータで調整。


3R-3冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化 ○佐藤裕也,豊田哲也,延原 肇(筑波大)

背景
 ホームページ:観光者視点の情報が不足
 口コミサイト:書き込み人数が少数
 ブログ/マイクロブログ:情報探索困難、地理情報が不明瞭
 ->Twitterから収集統合(観光者視点)

naltoma: 観光地名が直接記入されていない感想ツイートが多々ありそうだが、どう収集する?対象外?
naltoma: ツイートだとブログ以上に「受け狙い」とかバイアスがかかった傾向とか特殊な特性はないか?(それが問題にならないか?)
naltoma: 再クラスタリング分割で「ツイート数の差が細小になる分割を選ぶ」理由は?

Q: Juman,mecab(Wikipedia)使ってるとのことだがmecabだけではダメなのか?
A: Jumanは代表表記が複数出力されており、表記揺れのために使用。
Q: 京都を使った理由と、京都以外の土地についてどういう所で有向かとか考慮すべきことがあるか?
A: ツイート数が多いのと個人的に好きだから京都を選んだ。福島/茨城とかだとツイート数が極端に少ない場所では難しそう。
Q: 広島は個人的に観光客だと思ってるが、他の人はそう感じてないようにも思う。過疎地ではこういうスタイルだと難しそう。
Q: ツイート検索は公式API?ツイッターだと公式RTは区別できるので元ツイートだけ使えば冗長性排除になると思う。
A: 公式APIを利用。非公式や広告除去なんども考えていて、非公式の場合にはツイート自体を排除することが良いかどうかも検討中。


3R-4神話のトピック構造分析による比較研究 ○太田 明,橋本和夫,山田仁史(東北大)

主観的な分析は行われているが、より客観的な根拠のある分析をしたい。
トピックモデル:Multiscale Topic Tomography (MSTT)

naltoma: シーン分割はIDM(影響伝播モデル)の方が良さそう。
naltoma: 「場面の構造」とはシーン1,2,3のようなシリーズ?階層構造?より複雑な構造?

Q: トピックモデルで特徴量という話だが、他の物語についても適用できそうだが、神話に特化する必要のある部分はあるのか?
A: 神話以外の物語/文書にも適用できると思うが、神話を選んだ理由は個人的な興味。
Q: 神話には同じような構造があって、というのが神話特有の話ではないかと。
Q: トピックモデルをそのまま適用するのが難しいという難点があるようだが、既存の神話がどういうデータ構造なのかに依存しそうだが、そこには依存しないのか。関係ない一般的な話なのか。どの部分が神話を研究するという特定な話なのか、一般的な話なのかが良く分からない。
Q: 古事記とか参照してるようだが、第一次資料として何を参照しているかによってアプローチの仕方も変わってきそう。原著や現代語訳とかで解釈が異なりそうだが。
A: 現代語じゃないと認識できないので、仕方なくだが現代語訳を選択。確かに翻訳で失われる情報とかがあるとは思う。翻訳を比較するとかも今後必要になると思う。


3R-5日本語クロスワードパズルのカギの解法 ○内木賢吾,佐藤理史(名大)

カギは特定種類の連想を促すことが多い
 人手で連想タイプ(7つ)を設定
 今回は穴埋め/反対語/同義語/説明の4タイプが対象

naltoma: 資源が不足しているようだが、どうやって増やせるだろうか?
naltoma: クロスを考慮した候補選択はしている?

Q: 先行研究との違いは?
A: 言語資源(Wikipedia利用)と内部モジュール(Unidicで階層的見出し語定義を利用しているので表記揺れに対応)が違う。
Q: 実験結果の比較では、先行研究を包含した形で良くなってるのか、そうじゃないのか。性能自身は上がっているが、先行研究で正解してたものが本手法で失敗しているというようなことはあるか?
A: 未調査。
Q: 複数鍵が重なった依存関係がありそうだが、そこについて検討しているものはあるか?
A: Proverbをそのまま使うことで利用できそう。
Q: クロスワードを解くのは何故?
A: 面白そうだからでもあるが、人間がどのようなものからどういう連想するのか、どういう資源を使うのか、というモデル化に興味がある。


3R-6比喩的素描を用いた類似語推論およびその視覚化インタフェースの構築 ○長谷川恭佑,桝井文人,後藤文太朗(北見工大)

比喩的素描(デスクリプタ)で検索支援。MURASAKI。
逆引きリストから類似語推論し、結果を視覚化

naltoma: 検索目的毎に適切なデスクリプタが異なりそうだが、目的はどのように推定する?
naltoma: 逆引きリストで得られる類似語は「どのような観点での類似語」なのか?

Q: 初音ミクから「ボーカロイド」デスクリプタを介して他の類似語を求めているが、デスクリプタ自体の類似性を求める必要はないか?ボーカロイド以外の歌わせてやるシステムとか。
A: 未検討だが、初音ミクだとボーカロイド以外にも複数デスクリプタが出てくるので、そこで担保できるかもしれない。
Q: MURASAKIのログデータを計算するコストはどのぐらい?
A: 現在はリアルタイムで一部データを使って逆引きリスト作成だけでも結構時間かかるので、予め処理しておく。
Q: Google Setsのような類似語を出すシステムがいくつかあるようなので、参考まで。


3R-7ローマ字入力による縦書きモンゴル語入力方式の実装 ○巴図孟克,中平勝子,三上喜貴(長岡技科大)

Q: 提案方式の評価についてモンゴル語を母語とする人に対して、Microsoft入力方式を普段から使っている人だと思うが、提案手法にどれぐらい辞書登録されていて、何割ぐらいヒット率があったのかによって評価が変わりそうだが、ヒット率はどのぐらいだったのか。
A: Microsoft入力を使ってたのは二人だけ。
Q: 辞書から単語を拾ってくるという入力方式なので効率良くなっているのだと思うが、辞書の単語数を減らした際のヒット率を検証できると良さそう。


3R-8カタカナ抜け文のための自動解法アルゴリズムの提案 ○島 広幸(工学院大),建石由佳(ナラプロ・テクノロジーズ),小西克己(工学院大)

文脈を理解させ、推測や連想を行わせたい。
カタカナ抜け文パズル
 Web日本語Nグラム

naltoma: 文脈理解というよりは、前後の単語と共起しやすい単語の連想という問題?
naltoma: 何に応用できる?何をモデル化したことになる?(カタカナ制限やマッチング制限があるために逆に面白みの欠けたモデルになってない?)

Q: 最短経路問題で解くようだが、経路はどうなる?
A: パスは各候補単語を個体として、同じ番号を持っている単語が隣接したグラフを生成。
Q: 連想はどこにある?どういうところで連想しないと解けない?
A: 例えばある場所に当てはまる単語を考える際に、その前後の単語から連想する。それをNグラム+共起で実現した。


3R-9マイクロブログ上の中心的話題とそれに対するユーザの反応の抽出 ○藤川智英,鍜治伸裕,吉永直樹,喜連川優(東大)

「話題を知ること」自体の需要。
話題に対するユーザ意見分析:ex.)信じているか疑っているかで分類
 話題語抽出・スコア計算(話題語出現頻度をバーストスコア)
  話題語と偶然を見分ける必要性:共起バースト語が多い場合は本物の話題語である可能性が高い
  PageRankを用いたスコア調整
未知語に伴う形態素解析ミスをグラフ化でフレーズ・話題を表す文として抽出することで対応

naltoma: 「話題」とはどのぐらいの規模を想定しているのか。対象としている母集団とのサイズ依存?(調整が必要?)

Q: バーストでどういう母集団に対してやってるのか、逆に出て来なかったものについてものとか。
A: 条件で絞り込みしている。
Q: 母集団は?
A: 日本語ツイート全体
Q: 関連ツイート収集とあるが、RTは意識している?
A: 公式RTは排除。
Q: どのぐらいRTが含まれているかは調査した?
A: 未調査
Q: EMNP2004の単語ランク(?)があるので参考まで。
Q: 日本国内で一番バーストした単語は「パルス」だと思うが、それはどういう表示されたのか?
A: バースト単語をランクオーダで並べているだけなので、とくに出力に変化はない。


学生セッション[4ZJ会場] システム評価 座長 櫻庭 健年(日立)


4ZJ-1チェックポインティングによる評価条件が可変な高速シミュレーション手法の提案 ○椎名敦之,大津金光,横田隆史,馬場敬信(宇都宮大)

新規アーキテクチャの特性を見るための繰り返しシミュレーションを高速化したい
 チェックポイント&リスタート(ダンプ?)で高速化
 DMTCP

naltoma: アプリケーション/ベンチマークを与えると自動でチェックポイント&リスタートできるように動作を変更できる?自前でプログラミングするだけ?
naltoma: CPUレベルのダンプデータだととても巨大なサイズになりそうだが、問題にならないか?

Q: チェックポイントの場所ずらしてとか難しかったと思うが、いろいろ手法が考えられたと思うが何か比較検討されたことがあれば。例えば、例題のスレッド1,2,3を繰り返すものを1,2,3,4,4と変更するものを最初から入れといてコンパイルするものや、ある条件でコール先を変えるようにしておけば倍なりコード空けておくとか必要もないだろう。
A: 作ってあるプログラムがいっぱいあって、それを使いたいから。
A: 予めコンパイルしておくというのもあるが、最適化手法を新たに開発した時に、そのコードがどういう性能になるかを評価したい。未知のものは予め作っておくことはできないので、領域を空けて置く必要がある。
Q: チェックポイントのオーバーヘッド次第では最初からやり直す方が早いこともあり得るが、どのぐらいオーバーヘッドがかかるか。もしくはどれぐらいでチェックポイントした方が良いのか。
A: 検討中だが、現時点では長時間かかるシミュレーションを想定している。


4ZJ-2準天頂衛星を用いた防災情報配信システムの設計と有効性検証に関する研究 ○原田貴史,石田剛朗,楠田哲也,神武直彦(慶大)

避難のタイミング:生き延びた人でも1/4が友人らの声かけ後に避難
災害発生時に使用可能な情報配信システム
 技術的な制約を把握したい
  片方向、伝送速度が極めて低い(約6秒に1回250bit)

naltoma: オペレーション含めてどういうシステムとして設計を考えている?

Q: 防災システムとしては非常時だけ使えるというのは経験的に役に立たない。日常的に使えるツールとしても使ってて、防災時にも使えるように設計されてないと使えない。エリアメールを使ったことあるが、通話中/アプリ使用中には割り込まないので使えない。仕様変更されてるかもしれないが。
A: 検討する必要があると思います。
Q: 受信機はちょっとした改造で使えるということだが、バッテリー消費は?
A: バッテリーが良くならないと現実的にはそれほど長くは使えない。消費電力についても今後評価していきたい。
Q: 将来の話ということでデータが増えた場合、どれくらい送りたいというケースを想定しているのか。
A: 今は緊急地震速報程度だが、本当は避難経路とかを位置情報でフィルタリングをかける形で送ることも検討している。


4ZJ-3ドライビングシミュレータを用いたジレンマゾーンにおけるドライバーの視線データの計測とその評価 ○平野優輝,千田一誠,杉野栄二,瀬川典久,澤本 潤(岩手県大)

交通事故防止に対するドライバーの視線方向計測の有効性を確認したい
 ジレンマゾーン:黄色信号時に停止/通貨の判断に迷う領域

naltoma: ジレンマゾーンは車速以外にも車道の幅や歩行者の有無など多くの環境要因から影響を受けそうだが、その影響は無視できる?
naltoma: 視線方向計測で適切な時に警告を受けることは事故防止に役立ちそうだが、逆に警告が邪魔になるなどでメリットはないか?
naltoma: 640×480程度の粒度は実世界との差が大きそうだが、シミュレーション結果に影響しないか?

Q: 目線データは、ドライバ歴によって変わりそうだが、被験者のデータはどのように収集した?
A: 今回は経歴を考慮していない。運転歴1〜2年程度の人が多いがばらついている。
Q: 何らかの知見が得られたとして、それをどう活かそうと考えている?
A: ドライバの注意の変化が分かったが、これに限らず事故が発生する状況を作り、その原因解明。車への新機能の提案などにも繋がれば。


4ZJ-4日本語のやさしさの自動推定のための特徴量に関する基礎的検討 ○張  萌,伊藤彰則(東北大),佐藤和之(弘前大)

日本に住む外国人増加:日本語から正しい情報を理解できない場合も多い
 「やさしい日本語」研究会
先行研究:日本人の感覚で「やさしさ」を定義されており、外国人がどう感じるかは分からない
 文章の構造を簡単にする:名詞数、文章長さ(文節数)、動詞数
 難しい日本語の単語を使わない:日本語能力検定試験の語彙レベル
 外来語を使わない:外来語は原語と意味や発音が異なるものが多い(外来語数)

naltoma: 文字の読み取りと音声の聞き取りとでの難しさの質が異なるのか。
naltoma: 外国人といっても様々なパターンがあると思うが、どういう状況を想定しているのか。
naltoma: 今回の実験では中国人留学生という同じ環境で整えているが、他国の留学生でも同様の傾向があるのか。
naltoma: 外来語が原語の意味と異なるという例と同様に、今回の被験者中国人にとって「漢字」が外来語と同様の問題は起きていないか?
A: 今回確認した事例では問題になっていない。
naltoma: 「より易しい」というのは分かるが、「ベストな日本語(誤解を生じない文)」が作れないか?
A: 検討してみたい。
naltoma: 意味理解を考えると「AのB」のようなものが難しそうだが、あまり問題にならない?
A: 文節数で長さを評価していることが間接的に評価している。


4ZJ-5小型共焦点顕微鏡の開発 ○平野俊幸,山田貴哉,服部公央亮,田口 亮(名工大),柴田 進(ミュースカイネット),保黒政大(中部大),堀米秀嘉(ホーリーマイン),梅崎太造(名工大)

小型で安価な共焦点レーザ顕微鏡の開発

Q: 精度評価をしていたが、既存製品との差異は?
A: 既存製品だともう一段階低い誤差で計測可能。
Q: 既存の高い製品と比べて小型で安く作れるという主張だが、どういう理由で安いのか?
A: 二次元スキャン(汎用品)を導入したのが一番効果が大きい。既製品ではガルバノスキャナだけで高く、さらにそれを高精度で操作するためのモータ制御等でサイズが大きくなる。
Q: 今回の装置はいくらぐらい?
A: 小型試作機は原価200万ぐらい。量産/小型化を通して原価20万程度を目指している。

情報処理学会 第74回全国大会 1日目レポート

火曜日, 3月 6th, 2012

情報処理学会 第74回全国大会の参加記録です。

年末に行った東京もそうなんだけど、やっぱり本土の「風がほとんどない中での寒さ」は沖縄の風の強さで冷える寒さと比べるとすこぶる快適。雨降ってると寒いかなと思ったんですが、それでも辛い寒さじゃない。真冬だとまた違うんだろうけど、今ぐらいの時期だと薄手コートで十分orやや暑いぐらい。
既にあれこれ食べてます(参考1参考2)が、学会出張=ご当地グルメの方程式を満足するためには当然の行動です。

話を戻すと、今回の大会は名前の通り「情報処理学会」主催の全国大会で、年に一度開催されるお祭り。
「祭り」と表現してるのは「多岐に渡るテーマに関する話題・研究者が集う」からで、どのぐらい幅広いかはプログラムを見れば納得できるかと思います。

大雑把なスケジュールとしては、
 ・午前中の一般セッション
 ・午後に「特別講演or招待講演」+一般セッション
 ・それらと並行して特別イベント
のような流れで進むらしい。

一般セッションは並列して開催されてて、例えば初日は一般セッションがアルファベット1文字では足りず「ZA」「ZB」とか続いてるぐらい多く、30前後のセッションが同時開催されます。会場準備お疲れさまです。

名古屋工業大学のキャンパスは結構広い&建物が多いので迷子になりやすいからか、入り口で出迎えていた「メイちゃん」が(いろんな意味で)人気者でした。

ということで極々一部しか見れていないのですが、初日は
 ・(山内くんが発表するので)一般セッション[1C 会場] 情報検索・情報推薦
 ・学生セッション[2V 会場] 情報抽出・質問応答
に参加してきました。以下、その参加メモになります。
ちなみに、naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
一般セッション[1C 会場](3 月 6 日(火)9:30 ~ 12:00) 情報検索・情報推薦

学生セッション[2V 会場](3 月 6 日(火)15:00 ~ 17:30) 情報抽出・質問応答


一般セッション[1C 会場](3 月 6 日(火)9:30 ~ 12:00) 情報検索・情報推薦 座長 奥 健太(立命館大)


1 協調フィルタリング推薦によって誤推薦されたコンテンツに関する一考察 ○山内一騎(琉球大)

Q: 今回のサンプルデータは1000件ぐらい。データが揃って初めて使えると思うが、過去のデータがない分野、例えば500件とか100件とかでどれぐらい有効性が変わってくるのか。1000件で十分なのか。
Q: ユーザのプロファイルを作るという話だが、従来手法にも色々あるがそれらと比べて有利な点は?
Q: 従来手法でもコンテンツを特徴付けるという話もある。特徴ベクトルは0,1とは限らず0〜1の連続値もある。それとの違いは?
コメント: MovieLensはいくつかバージョンがあって、10Mの方が傾向を掴みやすいと思う。

(今回学会発表初の割には前日夜まで資料作成してて発表練習する暇無かったこともあって、
 やや発表おかしかったところもあったけど、建設的な意見や参考情報教えてもらえたので良かったんじゃないかと。)
-> セッション終了後の記録


2 社会性を組み込んだ情報推薦システムの設計 ○小池克拓,打矢隆弘,内匠 逸(名工大)

身時かな人/気の合う人からの口コミ・評価(=社会性)を組み込んだ情報推薦の話。
協調フィルタリングだと推薦者が不明で推薦の信頼性や説得力に疑問が生じる。
 Friend Filtering機構の導入
  Friendクラスタ以外をフィルタリング

naltoma: 「お菓子」の例だとそもそも買いやすい(敷居が低い)が、それが受け入れやすさに繋がっていないか。
naltoma: 実世界でのクラスタを活用するのは良いが、本番ではそれをどう実装するのか。

Q: 友人からの推薦でどのぐらい精度上がるのかという実験だが、お菓子推薦のようなものだと同じ研究室の中で見ている人の影響が出てきそう。お菓子の味となると研究室内での共通性が無さそうだが、何故それを選んだのか、それで良くなった要因は何故か。
A: 論文推薦のようなものだと研究分野やゼミといった偏ったデータを取る必要がある。お菓子のような普遍的な題材の方が分かりやすい、嗜好を取りやすいから選んだ。所属の影響が出難いのかという点については、大学生に対してやってるので年齢差は出てないが2つの異なる大学での差異が出てるのではないかと思う。
Q: 今の大学の同じ研究室だから上手くいっているという特性もありえるように見える。

C: 信頼性を考慮した推薦については、ソーシャルネットワークを活用した事例「トラストなんとか」とかあるので調べて見ると良い。


3 アルゴリズム切替による情報推薦システム ○山本康平,打矢隆弘,内匠 逸(名工大)

CF推薦で同じようなアイテムばかり推薦されるのが困る。
それを時間帯によってアルゴリズムを切り替えることで解決したいらしい。
 今回はユーザベースCF・アイテムベースCF・スロープワンの3種を切り替え。
 時間帯毎に固定/ランダム/選択学習でアルゴリズムを決定。

naltoma: 時間帯をどう設定するのか?アルゴリズムをどう設定するのか?切り替え自体に意味があるのか?

Q: 適合率と再現率はどうなった?
A: まだ未調査。
Q: 時間帯に拘る理由は?
A: 朝食べたいものとか時間帯に起因した嗜好を汲み取りたい。

C: サイクリックな時間に対する推薦だったらこういう話で良いと思うが、映画のようなものではこういう話は当てはまらない。何をターゲットにした推薦なのかを明確にしておくと良さそう。
C: アルゴリズムを切り替えるというのは良さそうだが、「ある根拠で切り替える」というアイデア自体は既存手法があったと思う。状況に合わせた推薦をすると面白そう。

Q: 多様性の評価で「生起数の多さ」をしているが、アイテムが多くなると良いという評価で良いのか?
A: 推薦という点では多様性が増えたといえる。
Q: 推薦という意味では逆にそれがネックになりそうだが、適切な評価なのか? アイテム数よりは内容の多様性を見る必要が無いか。


4 電子文書中の TrueType グリフ照合とその高速化手法の検討 ○鈴木俊哉(広島大)

動機:どの字が何(どのフォント)で印刷されているのか分からない
フェイス名(MS 明朝とか)で指定可能とされていたが、字形の詳細に拘泥する領域でも十分か?
 ケース1:字形を変えたいが名前は変えたくない(バージョン番号だけ変わる)
 ケース2:コールバックの問題で「JIS規格票字形に無いはずの字形が出てくる」。
  *どこに外字フォントが潜んでいるかわからない
  フォント単位での特定 -> グリフ単位での特定
ラスタイメージで比較
 -> 利用許諾・著作権上実用性無し
True Type 描画命令のハッシュ値比較
 そのままだとラスタライズと比較して30倍遅延->高速化



5 文法構造を付加したテキストに対する情報検索方法の検討 ○鈴木 晋(愛知工大)

簡単な文法構造(ここでは「形式文」と呼ぶ)を人手で付加して検索に利用するという試み
含意関係認識に近い例で、質問応答するタイプっぽい。
Semantic Web、オントロジー、WOLに似てる気もするがそれを手動で作るっぽい。

naltoma: 人手で質問に付与するぐらいなら良さそうだが、説明文へも人手が必要だとコスト高過ぎないか?
A: RDFでの表現には限界があるという立場。
naltoma: (だけど人手でそれを解消してるようにも思えない)

naltoma: 形式マッチングだけでは不十分で、何を問うているかについての解釈も必要では?

naltoma: 単純キーワードマッチングとどのぐらい結果の質が異なる?
A: キーワードマッチングでは主語述語の関係を無視してしまう。
naltoma: (その例に限って言えば係り受け解析まで加味したら良さそう)


6 類似文字列検索における LCP 配列を用いた索引の提案 ○木村光樹(東大),高須淳宏,安達 淳(国立情報学研)

可変長N-gram
 VGRAMはパラメータ変更する度に木構造を作り直す必要がある
 -> 木構造じゃなくて配列利用。要件:時間削減&パラメータ変更に頑健。

Q: 表記揺れにもいろんなパターンがありそうだが、今回の対象ではスペルミス(字面の並び)のみ?
A: その通り。

Q: 今後の課題で日本語のように文字種が多いものについて評価したいとのことだが、その前に「アルファベットでも単語が長くなるドイツ語とか」で評価するのが手っ取り早そうだが、何か予想できることはあるか。
A: 今回は検索速度は比較してないが、スペイン語で実験した例と比較するとあまり英語と変わった特有の話はそんなになかった。辞書化した場合にはあまり差が無い。逆にDNAのような文字種が少ない場合では文字列が長くなってしまうため、そういうケースでどうなるかは今後検証してみたい。


7 Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents ○ Yimin Chu(東大),高須淳宏,安達 淳(国立情報学研)

PDFでの論理構造抽出が目的。
 コンテンツ抽出->グルーピング->論理構造抽出
 キャラクタ、フォント、線、ブロックなど。
従来法:フォントサイズ、ラインスペースに基づいてグルーピング。
 今回はアライメントとインデントを導入。

naltoma: 論理構造の延長戦にストーリー展開とか意味構造があるのかな。

Q: 先行研究とターゲットの違いがある?(アカデミックペーパーかコンシューマ雑誌か)
A: アカデミックペーパーは一例。データセットに含まれている。
C: 自分が考えてるパラグラフ抽出が有利と考えるのは良いが、ユーザはそこに嬉しさを感じるのか。パラグラフが重要なのかそうでもないのか。


学生セッション[2V 会場](3 月 6 日(火)15:00 ~ 17:30) 情報抽出・質問応答 座長 佐々木 裕(豊田工業大)


1 自然言語テキストにおける注視関数を用いた注視語抽出方式の提案 ○齋木貴博,鈴木 寿(中大)

深層格の自動抽出に繋げるための話らしい。
(遅れて聞けず)


2 ソーシャルネットワークを情報源としたコミュニティ辞書自動生成の 研究 ○宮本和幸,菱山玲子(早大)

専門用語(特定コミュニティで使用される用語)を自動生成したい。
 機械翻訳での誤訳を防ぐ

naltoma: 「Twitterがコミュニティ性の高い語彙が現れやすい」という仮定は良いとして、それをどう構築する?コミュニティとは?
naltoma: 未知語と一緒だが、ツイートされない専門用語は?(漏れはどのぐらいある?)

Q: コミュニティの語彙を収集するという意味ではブログの方が詳しい気もするが、Twitterでは崩れ過ぎているということはないか。
A: 今回はブログは対象として考えていなかった。Twitterは正しい日本語じゃない、崩れているものも確かにあった。


3 WEB 上の相談事例とトラブルデータベースを利用した重要事案発見のための要因解析 ○八十岡智章,岡田将吾,新田克己(東工大),高橋久尚(統計数理研),本村陽一(産総研),田中智貴(国民生活センター)

早期警戒指標となる重要な事例・事案を自動発見したい。
類義語辞書:アラジンの負担・トラブル表現リスト(例:風邪->病)

naltoma: 分類精度というよりも発見見逃しがないか、再現率が高いかが重要では?
naltoma: どんな事例で失敗している?

Q: パラメータ調整の自動化について考えていることはないか?
A: 現在は手動調整。自動化は検討中。
Q: 自動化ができそうか? 手動でやらざるを得ない問題設定なのか?
A: 動的に変化するものなのである一定期間毎に更新する必要があると思う。


4 検索サイトを用いた自由記述式アンケートの特徴語抽出法 ○星野詞文,吉村宏樹,岡 誠,森 博彦(東京都市大)

検索ヒット件数から名詞の繋がり具合を判断できないケースへの対処
 文法的視点から「連接係数」を導入

naltoma: 企業アンケート特有の話がある?


5 カテゴリ階層を考慮した固有表現抽出 ○東山翔平,関 和広,Mathieu Blondel,上原邦昭(神戸大)

従来の固有表現抽出では「分類」だが、階層関係が考慮されていない。
 重みwを学習する際に階層関係(ラベル間の損失関数)を導入
 階層間関係における「差」を損失関数として設定
  dca: deepest common ancestor -> 一般用語の方がby座長

naltoma: 適切な損失関数はどのように定義する?
naltoma: 項目毎の損失関数総和で良いのか?

C: 固有表現をテストするデータセットがあるのでそこで比べると比較しやすくなる。


6 中学校レベルの数学の文章題を解くシステム ○箕村大輔(電機大)

形態素解析->ホーン節(原子論理式)変換->常識追加->連立方程式作成->制約プログラミングで解く
ホーン節変換:Syntax Directed Translation Schema(SDTS)
‘支払う(太郎,1050)’: 支払ったなら何かを買ったはず->買うという式を追加。

naltoma: 問題の意図や答えるべき事象はどのように汲み取れるのか?
naltoma: 常識的知識をどのように用意するのか?(どのぐらい必要になりそうか?)
A: どのぐらいの数が必要そうかは未検討。
naltoma: 文章題のタイプはどのようなものがあるか?
A: 有理数の演算で求めるタイプ。例えば図形は考慮していない。

Q: 例えば中1レベルの問題集解かすと何パーセントぐらい解けるのか?
A: 変換規則が不十分なのでまだ何とも言えない。


7 発言内容の関連性を用いた質問答弁の構造化に基づく議事録閲覧支援システム ○小泉元範,新谷虎松,大囿忠親,白松 俊(名工大)

解決したい対象:全体内容把握の困難さ、話題発見困難さ
 議事録の「質疑応答構造」を利用
質疑応答分割->セグメント分割->セグメント間関連度->構造化

naltoma: 質問者、答弁者のデータセットから汎用的な「質問パターン」「答弁パターン」が見えてくるか?
naltoma: 複数の議事録での時系列推移を見れるか?(参照リンク生成?)
naltoma: 事前に議題が明示されてるケースが多い気がするが、比較してどのような差異が見られたか?
A: 要約に相当するような文が冒頭にでてくるが、実際に発言としてでてきた言葉を見出しとして使うことができる。

Q: 質問者が答弁者に対して「はい/いいえ」と言わせるようなやりとりでは類似度があまり出て来ないと思うが、こういうケースではどうなるか?
A: 質問/答弁が長いケースを想定している。
Q: 長短に応じて前後の発言にくっ付けるというような判定も面白そう。


8 複合名詞の構造パターンを考慮したスコアリング手法の改良 ○吉野 徹,福本淳一(立命館大)

QAシステム「*は誰?」
例:完全試合を達成したヤンキースの選手は誰?
 回答候補をスコアリング:キーワード毎にスコア付与
 問題点:複合名詞の形態素が離れて現れた場合、スコアリングを行うのに相応しくないキーワードがある。
「名詞-助詞-名詞 名詞-名詞」の構造パターンについて人手分析
NTCIR-3のQACタスク+Google検索上位10記事
 RRで評価

naltoma: 汎用的なパターンとして抽出できるのか?

Q: 構文解析機を使った事があるか?
A: 精度8割程度と低かったので、自前で作ろうと思った。
Q: パターンというより文の構造で見た方が良いと思う。


9 Twitter からのアルバム自動生成システムのための関連度計算手法について ○糸川翔太,白松 俊,大囿忠親,新谷虎松(名工大)

コメント付きアルバム(複数ユーザ)を自動生成。
 入力:Twitterユーザ名+イベント期間
 「写真ツイートその他ツイート」の類似度算出し、関連ツイートをコメントとして採用
 類似度=投稿時間の近さ+位置の近さ+テキスト類似度+リプライ


10 質問応答システムにおける再検索を用いた回答候補の抽出手法 ○油井宣明,福本淳一(立命館大)

QAシステムの問題点:質問文中に情報が不足している場合回答を一意に決定できない
先行研究:ユーザ対話を用いる。
提案:質問文の曖昧性を解消するために回答を拡張することで絞り込みしやすくする

Q: どのぐらい性能が良くなる?
A: 性能が良くなるというよりは抽出できる回答を増やしたい。
Q: 間違った回答に結びつくこともありそうだが。
A: 間違ったものを省くというよりは、提示すること自体を増やしたい。ユーザが何を求めているかが分からないので、再建策で明らかにすることが目標。
Q: 適合フィードバックのような形で処理するのも一つの手法だと思う。

「ロボットは東大に入れるか」キックオフシンポジウム参加記録その2

木曜日, 12月 15th, 2011

昨日の記事では第1部にしか触れることできなかったので、忘れる前に第2部についてのレポートです。

人工知能やロボットといったテーマについて研究者らをインタビューしていたらこんなことになったという、小説家の瀬名さんによる軽快な司会裁きでの進行となりました。いろんな種から膨らませつつ種同士の絡み合う様子まで含めてとても面白かったのですが、もう少しテーマ絞って時間くぎって討論的に深められるとベターだったかなという上から目線での感想になったり(ぉぃ


>瀬名さんからの最初のお題
(1)これまでの題材と異なる、東大入試ならではの面白さは何か。
(2)東大入試に取り組むことでどういうブレイクスルーが起き、それがどのような変化をもたらすか。
(3)ロボットで解けるとした時、教育はどうあるべきか。

これらの題材を出発点として様々な主張/期待といった話が膨らんでいったのですが、kosuke64さんによる記録に詳しいので、ここでは個人的に興味深かった点について整理する形でメモを残しておきたいと思います。

メモの都合上、それらしいことを話されていた先生方の名前を付けていますが、私の解釈なので間違ってたらごめんなさい。

ここでは2つのトピック、
 ・論点1:必要な表象を全て記述できるのか?
 ・論点2:情報爆発への対峙の仕方に「常識」で絞り込む?
について整理してみました。
どちらも問題提示として重要な issue があるんだという意味での紹介であって、それらをどう解決するのかについては「やってみないと分からない」という立場での紹介です。こういう問題に私自身立ち向かおうという意思表明を兼ねて。



>論点1:必要な表象を全て記述できるのか?

松原先生:  チェスも最初はとても人間らしさを強く含んだ問題だと思っていた。今でも  そういう部分はあると感じているが、一度「盤面評価」等の形で記述できて  しまうと後は計算機パワーの問題が主要因になるようになってしまった。高  速化/効率化等まだまだ議論の余地は多くあるが、計算機パワーでなんとか  なってしまいそうな状況。それに対し、東大入試で求められる多様な常識は、  それをどう記述すれば良いのかすら分からない段階。 新井先生:  細分化されたことで意識にも登らなくなっている観点やタスクが数多く見逃  されているはず。それを効果的に見える化できるように、適度な粒度・サイ  ズに分割しやすい題材として東大入試を選んだ。これをオープンな開発基盤  として提供する事でオールジャパンのアンブレラとして他分野の融合を図り  たい。センター入試に5年、東大入試に10年と区切りを付けて遮二無二取り  組むことで shake に繋がると思う。 安西先生:  確かにやってみないと分からないことはあるので、これまでになかった新た  なアイデアがでてくることもあるとは思う。いずれ。でも、これまでも様々  な表象を記述する議論であったり、データベースとして格納するといった議  論はずーーーっと昔から数多くやられているが一向に解決する様子が見えな  い。ロジックだと記述論理等があるがそれで本当に全て記述できるのか。(  経験から学ぶ)フィードバック系だと様々な系をくっ付けることは可能だが  それをどう接続するのが適切なのか。ここまで死屍累々な状況を鑑みると、  オールジャパンで取り組んでも全部が全部ダメでしたで終わってしまったり  しないか。 新井先生:  そこまで正面から対峙する必要(全ての表象を記述する必要)があるのかと  いう観点もある。例えば、学生を見ていると「経験から学び、抽象化してそ  れを次に活かしているとは*思えない*事例」も少なくない。

>論点2:情報爆発への対峙の仕方に「常識」で絞り込む?

安西先生:  初めて対峙する際、例えば初めてある問題について学ぶという時点では丁寧  に文章を噛み砕いていくしかない。それこそ自然言語処理のように。だけど  慣れてくるにつれてキーを簡単に見つけ出せるようになる。要約みたいなも  のかもしれない。そこに研究テーマはあるのか。 新井先生:  昨今どこにでも情報爆発は見られてて、それに対する解決策は「気の聞いた  ように処理してあげる」しかないように思う。今の若い世代の人らは体感的  にそういう問題意識を持っていて、これを解決しない事にはこれ以上の進展  が無いだろうという直感がある。身体性が持つある種の感性や感覚が渾然一  体となっている常識を解決すること自体が求められている。 安西先生:  研究としてやるとすると、コンテキスチュアルからキーを見つけるなりして、  そこから検索に繋げるような感じかもしれないが、それはどう実現するのか。