Posts Tagged ‘自然言語処理’

(論文メモ) Evaluating the Impact of Coder Errors on Active Learning / ACL-HLT 2011

水曜日, 6月 22nd, 2011

自然言語処理分野で世界最大の国際会議ACL-HLT 2011の論文が公開されました」ということらしいので、Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT 2011)から面白そうな論文をリストアップしてみます。

ちら見した感想も書いてありますが、ざっと眺めて気になった点を書いてあるだけなので事実と異なる可能性もあります。気になるなら原本読みましょう。


出典情報: P11-1005: Ines Rehbein; Josef Ruppenhofer, Evaluating the Impact of Coder Errors on Active Learning, ACL-HLT 2011

能動学習におけるアノテーション・ノイズが精度に及ぼす影響を評価してるっぽい。

前置き
「能動学習」は機械学習の一種。一般的な教師あり機械学習では、予め正解を付与した事例集合からそれらを分類したり類似判断したりするための有益な判断基準を自動抽出するのに対し、能動学習では抽出した判断基準を用いて未知の事例集合について判断した結果に自信が無い場合、それを人間に質問して正解を確認しながら学習します。つまり、少しずつ事例集合を増やすという対応ができるので、最初から大量の正解事例を用意することなく、苦手な(判断が困難な)事例を判断しながら事例を増やしていくことができたりするので、事例を用意する手間を大きく省けることと、事例自体を追加し続けることができる点が嬉しい。

ここでのアノテーションは、ここでは事例に与える正解と考えてもらって良さそう。つまり、アノテーション・ノイズとは、ある事例に対して与えられた「正解」に誤りが含まれること。人間が手作業で付けるので、判断ミスもあればタイプミスもあるかもしれない。一人の人間だけじゃなく複数の人間で作業することも多いので、個々人の判断基準がそれ難いので、用意された「正解」にも誤りが含まれ得るということです。このノイズが学習に及ぼす影響を調査してみた、というのがこの論文の主旨になります。

一つ目の実験設定としては下記3ケース、
 ・rand: ノイズ含んだ事例集合からランダム・サンプルした学習、
 ・ALrand: 事例に付与されたクラスをランダムにN%変更するノイズ(片寄無し)を付与した状況での学習、
 ・ALbias: 同様のノイズをバイアス付けて付与した状況での学習、
についてノイズの割合を増やしながら比較評価してるらしい。(図1を見ただけで見て取れる結果なだけで読み違えている可能性があるけど)意外なことに結果は、
 ・エラー率が低い状況(10%ぐらいまで): 「rand<ALrand<ALbias」の順で精度が良く(「落ちにくい」と読むのが正しい?)、
 ・10〜20%ぐらいでは「rand≒ALrand<ALbias」、
 ・20〜30%ぐらいでは「ALrand<rand<ALbias」
のように、付与したエラー率によって順番が変わってくるらしい。大雑把な傾向として「rand≒ALrand」や「rand≒ALrand<ALbias」なのは直感に符号するのだけど、「rand≒ALrand」についてはノイズの割合が変わると割と顕著に差が開くらしい。やってることは質的には同等に見えるのだけど、影響が異なるらしい。一体何故。

その原因を追求するためなのかは分からないけど、筆者は過学習のリスクや能動学習初期段階における判断精度の低さが要因となる問題を避けるために「能動学習時に教えてもらう教師データを鵜呑みするのではなく、そのデータとこれまでの学習結果を組み合わせることでより一般的な特徴ベクトルを生成する。(多分全クラスN個分に対して同処理を行う)。その後、N個の分類器とoracle(システムからの質問に答える人)の関係からそれを学習するのに適切か否かを判断し、適切ならば学習する。適切じゃなければ学習しない。(例えば、全分類器がagreeしてるのに、oracleがdisagreeという状況ならrejectする)」というアプローチを提案しているらしい。実際にはもうちょっと細かいことやってるようだけど、合議アルゴリズムのような形で学習すべきか否かを判断させている訳だ。

結果は、図3を見る限りでは「どちらかというと悪く作用している(精度が落ちやすく見える)」ように見えるのだけど、考察を読む限りでは改善しているらしい。あれ、図の見方間違ってる?(表2では良くなってるところもあるけど、どの時点での精度なのか良く分からず)

ノイズが完全に無いデータなんてのは非現実的だと思うので、意図的なノイズにせよノイズが精度に及ぼす影響とそれを踏まえた学習手法の改善策としては面白いですね。

情報推薦/情報抽出に関する研究事例あれこれ

火曜日, 4月 12th, 2011

学生が情報推薦/情報抽出といったキーワードに興味があるとのことで、先行研究の例として「どういう観点で取り組んだ例があるか」という観点から大雑把にここ最近の口頭発表事例をピックアップしてみました。大雑把にしか目を通してないので誤った見方してるものもあるかもしれませんのでご注意を。あと、アプローチについては基本的に見ていません。手法は目的や目標ができてから関連事例を探せば良いわけで、まずは目的を明確にさせたいので。

多くはFIT2010とNLP2011から。番外編として大規模データマイニングとして面白そうな話をしているhamadakoichiさんの資料もピックアップ。

  • 情報推薦の歴史
  • 嗜好抽出と情報推薦技術

  • 言語処理学会第17回年次大会(NLP2011)から目についたものをピックアップ
  • B2-2, マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案
    内容以上にタイミングを重視した推薦手法。
    B2-3, Twitterからの個人の行動に起因するトラブル予測システムの試作
    Twitterをライフログとして、「一個人」を対象とした未来予測(≒推薦)。
    B2-5, Twitterユーザの属性判別によるスポーツ映像の自動要約
    特定のキーワードを呟いているor推薦候補にそれが含まれるからといって、そのキーワードに興味があるとは限らない(e.g., 巨人ファンアンチ巨人)。より深くプロファイル作って推薦しようというお話。
    B2-6, Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出
    日々生まれる新語・略語について理解を促すための用例を提示するシステム。
    P1-19, Twitterからの自動車の不具合情報抽出
    D2-3, レビューからの商品比較表の自動生成
    D2-7, 手がかり表現自動獲得による製品発表プレスリリースからの製品特徴の抽出
    3件とも既存サービスの問題点を抽出・整理して改善の種を探しやすくするという、提案/決断をする人向けの情報推薦。
    E5-4, Twitterへの絵文字自動挿入システム
    部分文字列毎に類似した「絵文字入り文字列」を検索することで、自動的に絵文字を挿入しようという話。
    C3-2, 書評利用のレコメンデーションを目的とする書評検索システムのためのキーワード抽出
    ランキング依存では「大多数」な情報しか推薦できず、好きなものを探し難い。というスタンスで取り組んでいる例。
    A5-6, 最大クリーク探索に基づく特許検索履歴の統合
    検索時に入力されるクエリには同じ単語であったとしても異なる観点で入力されている。そのような観点を自動抽出して検索支援に応用しようという話。
  • 第9回情報科学技術フォーラム(FIT2010)から目についたものをピックアップ
  • D-001, 個人の性格データに応じたアニメーション表現を伴ったWebバナー広告生成システムの提案
    嗜好に応じて動画広告を自動生成しようとする試み。嗜好はユーザに入力してもらうので、検出的な所は狙わずに分かってる前提での推薦ですね。
    D-003, 個別広告提供のための精緻化見込みモデルに基づいた広告メッセージの決定
    キーワード連動広告掲載時のメッセージを適切に自動選択しようという話。
    D-005, 口コミ情報の価値に対する時間的指標の表現方法とその評価
    偶発的な発見を支援する「街角メモリ」という概念について、必要となる評価をどうやるかについての話。
    D-026, 携帯電話検索ログデータに基づく行動特性の分析
    嗜好を検索ログから行動特性分析という形で特徴抽出しようという話。PCと異なる使われ方をするということを念頭に置いた話らしい。
    D-027, 小規模サイトにおける情報推薦を目的としたデータ統合手法
    データやインタラクションが少ない環境下での推薦に関する話。
    D-043, ソーシャルブックマークにおける方向性を持った推薦システムの提案
    似ているという基準だけではなくそれに方向性を加えたいという話。NLP2011のA5-6と同じ目標かも。
    RD-002, HTML要素に着目した違法・有害サイト検出手法の提案と評価
    アンチ推薦というか、推薦したくないのを除外するフィルタリングの話。
    RD-003, コミュニティQAにおける良質な回答の選定タスク: 評価方法に関する考察
    良質の回答を自動選定するための評価に関する話。
  • 大規模データを大前提にした「楽しさのデータマイニング」: 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

東北関東大震災とソーシャル・メディア(ショートバージョン)

月曜日, 3月 28th, 2011

学科システム落ちてる間にmixiに投稿済みの内容ですが、学生向けという意味でここでも紹介。

ほんの少ししか手伝いできていませんが、ANPI NLP というプロジェクトを通したボランティア活動をしました。某所への寄稿したものなので、ここでは圧縮してかいつまんで紹介してみます。いろんな支援の仕方があるよね、という意味を込めて。


 ほんの数年前までのソーシャル・ネットワークでは人間関係を構築する場といった側面が強調されていましたが、今回の震災を切っ掛けに、緊急を要するタスクとして認知し合った人らを中心として繋がり、互いに知識やデータを提供し合い、タスクを分割して協力するといった具体的な活動を行う場やその活動を支援する場(ソーシャル・メディア)としても有効に機能し始める時代へとなってきました。

 活動の一例として、Googleのパーソンファインダー(消息情報)。
(*1)Google Person Finder (消息情報): 2011 東日本大震災
 http://japan.person-finder.appspot.com/

 パーソンファインダーは、インターネットを介した人海戦術によるアプローチ。これ以外にも、専門知識を有する人らがプロジェクトとして協力し合う活動も現れました。

(*2)ANPI NLP (東日本大震災のためのデータマイニング・自然言語処理に関する情報のページ)
 http://trans-aid.jp/ANPI_NLP/
(*3)sinsai.info (東北沖地震 震災情報サイト)
 http://www.sinsai.info/
(*4)Twitter 上の大震災関連「救命・救助要請情報(#j_j_helpme・#311sppt 関連)」要約 & 通報支援サイト
 http://www.selab.cs.tut.ac.jp/~aida/
(*5)東北関東大震災 安否情報 横断サーチ
 http://trans-aid.jp/ANPI_IR/ja/

 (*2)のANPI NLPでは、楽天技術研究所(以下、楽天技研)の萩原さんの声かけにより主に自然言語処理やデータマイニングと呼ばれる分野で活躍している専門家が集い、「Twitterなどから得られる安否確認情報を照合、更新することでPerson Finderの情報を充実させること」を大きなタスクとして取り組まれています。

 そもそもの始まりは、楽天技研の萩原さんによるツイート「こういう緊急時にも自然言語処理が役に立てることはたくさんある。(中略)特に今必要性が高いのは名寄せ技術だと思う。被災者・安否不明者の表記揺れに困っている自治体とか多そう。」のようです(*6)。

(*6)言語処理屋さんが連携していく様子
 http://togetter.com/li/111529

 このツイートを切っ掛けに、
 ・Google日本語入力Mozcを開発されている工藤さんがデータ提供。
 ・地震を含むツイートを収集していた大阪大学の松村先生からデータ提供。
 ・京都大学のGraham Neubigさんから人名・地名モデルの提供。
といったアクションが高々数時間のうちに行われました。このスピード感で進む様子を受けての判断だったのだろうと想像しますが、翌日になる3月15日にハッシュタグ #anpi_nlpとしてTwitter上の情報集約が開始され、加えて情報通信研究機構の内山さんからの提供によりMedia Wiki上での整理が始まりました。切っ掛けとなる最初のツイートから僅か1日後のことでした。

 こうしてANPI NLPが始まり、前述の目的を達成するためのタスクが用意されました。ここで用意された当面のタスクとは、地震関連のツイートデータ約6万件が既にあり、これらのツイートが「安否情報を含んだツイートなのか(もしそうなら人名や地域名がどこに記述されているか)」「救助要請を含んだツイートなのか」「関係のないツイートなのか」といったことを人手で判断し、目印を付与するというものでした。この目印を付与するという作業は、直接的にはコンピュータで処理しやすくなる(パーソンファインダーの情報と照合しやすくなる)というのが利用目的になりますが、それだけではなく間接的な効果にも期待しての人海戦術でした。

 この間接的な効果の例として、分類器の構築があります。分類器とは、入力されたツイートを「安否情報を含んでいるツイートか/そうではないのか」といったYES/NO形式で分類したり、「生存を確認したツイートなのか/死亡を確認したツイートなのか/安否確認の情報を求めているツイートなのか/それ以外なのか」といった複数選択肢のどれに該当するかを自動で分類してくれるシステムのことです。もし、現時点でのツイートデータ6万件についてのみ処理したら全てが終了するというのであれば、全てを人手で処理することも考えられますが、実際には関連ツイートは日々収集され続けます。それら全てを人海戦術で判断するのは事実上不可能のため、少しでもその手間を和らげるために自動化しよう。その自動化をするための技術として、人手で付与した正解データ(分類結果)から「どのように分類するのが最も妥当か」を自動で学習する技術である分類器を使おう。こういった効果を狙っての試みでした。

 3月24日現在では、当初の目的であるパーソンファインダーへの寄与に関しては楽天技研を中心として続けられ、それ以外の災害支援タスク(安否情報ツイートと避難所を関連づけるタスクや、外国語に機械翻訳するといったタスク等)についても提案され、少しずつその結果が出始めているようです。日々更新されている状況ですので、詳細はANPI NLPのサイト上にてご確認頂ければと思います。

 以上、ソーシャル・メディアを通した活動例を紹介すると共に、自然言語処理屋の皆さんが構築されている成果物を利用している一人としてANPI NLPに賛同し、関わった活動内容の一部を紹介してみました。この活動が震災支援の一助となれば幸いです。

NLP2011, 併設ワークショップ「自然言語処理における企業と大学と学生の関係」に参加しての感想

日曜日, 3月 13th, 2011

細かいメモもありますが、togetterによるツイートまとめ(午前午後)に譲るとして、ここではパネリストによる意見の中をグルーピングしつつ、感じた感想を述べたいと思います。グルーピング次第でどうにでも取れる文面もあるので、実際にどういう流れで討論されていたかは前述のtogetter見る方が良いでしょう。

まず前提その一として、今回の討論は「何かを決めよう」ということは目的にされていません。互いに意見を主張し合い討論することで多くの視点や意見をアウトプットすること自体が目的のようです。
その二として、タイトルに「自然言語処理における」とあり、確かにそういう側面の話も含まれていたのですが、結果としては分野に囚われない一般的な話が多かったように思います。
その三として、そこが削れたためか、就職活動に関連した話題が多かったです。
その四として、往々に起こる状況と思いますが、「声の小さい学生」の話題が少なかったです。
これらのことを踏まえて、企業・大学・学生の三者がどのように考えているか、という議論についての感想になります。

目次


超約

  • 自分で考えて行動しよう。行動しないことには何も得られない。
  • 行動した結果失敗したとしても、大した事なく済むことが殆ど。失敗してそこから学び、次ぎに活かそう。
  • 強い動機を持って行動する人には手を差し伸べようとする人が多い。公開し続けていれば仲間が増える。
  • 具体的に行動する(e.g.,対面する)のを躊躇してしまうのだとしても、メールやツイッターみたいなカジュアルなツールならそうでもないのでは? 手段は豊富にあるのだから自分にあった方法で行動しよう。

読誦論

  • 基礎か、応用か、悩んでいる暇があったら基礎を身につけよう。
  • 読誦すべき。何をやったとしても局所解に陥らないことを保証することはできない。読誦し、いろんな視点を得よう。
  • 読書は大切だが、優秀過ぎて「簡単に読めてしまう」のは少し問題。時間をかけて向き合うことで読み解けるものもある。相手の求める速度に合わせて読もう。
  • 本を捨てて街に出る(行動す)べき。勉強/努力することは大事だが、全て万全に整うまで挑戦/行動しないというのでは時機を逸することが大半。行動し、失敗しながら学ぼう。若いことはそれだけで勝っている。失敗しても大したことが無いことが大いし、若いうちの方がやり直す時間が多い。
  • 面白いことを見つけよう。学生なら教科書、論文、書籍、ネット、友人、先生、両親あたりが多いだろう。企業では、例えば、リアルデータ、異分野異業種、多様な現場といった「知らない所」からも見つけている。
  • 違和感を感じるためにも外(専門外の専門や、学外)に出よう。初めての体験をすることで感じる違和感は想像の種になる。

大学論

  • 目的次第になるが、中途半端に企業に歩み寄っても、企業/大学/学生三者にとって不幸になることがあり得るのでは。大学はどうあるべきかといった理念・目標を見据え、行動すべきだろう。
  • 大学でないとやれないことは何か、と突き詰めるのも一つの道。
  • 古い技術を工夫して具体的な応用に結びつける所も大切なこと。ただし、大抵の「やってみた」レベルのことは企業でもやっている。大人の事情で見えないだけ。努力しよう。高度に知的な作業が努力である。
  • 企業/大学の双方にとって有益な紳士協定なりの協力の仕方もあるだろう。例えば、大学ではコア部分(差別化)を作成し、企業ではリスク部分(大きなエラーはぜ絶対に起こさない)を構築するなど。対価として金銭的なやり取りだけじゃなく、データやノウハウでの交換等柔軟なやり方が考えられると思う。

企業論

  • データを出して欲しいとか言われるが、具体的にどう役立てたいからどういう切り口で取得したデータが欲しいのか、明示して欲しい。持ってるもの全てと言われても、基本的に持ってるデータはこちらの意図で収集したもので、それがマッチしているとは限らない。
  • データと向き合うことで真実を探るというスタンスも良いと思うが、データを蓄積するというのはコストがかかるということ。タイムライン的に見返りが得られる等の説明ができないと、データを出すよう説得するのも困難。
  • そもそも「本当に解決したいこと」があるならデータが出てくるのを待つのではなく、企業に来てやるという選択肢もある。何故そうならない?
  • 企業にもいろいろあり、自社ではデータを持たず、大学より大学らしく活動している所もある。

学生論

  • 地方の学生は東京と比べて勉強会自体の機会が少なく、選択肢以前の問題。
  • 逆説的だが、お膳立てされてる環境では学べないことも多くある。主催することで学べることも少なくない。それが何かに役立つとは限らないが、身に付くものはある。
  • 言われたことをやるだけの人材は要らない。例えば「一見完成しているように見えるサービス」から課題を抽出し、それにどう取り組むかを考える力が必要。それらは一つ一つの課題に丁寧に取り組むことで身に付く力なはず。一つの専門分野で解決できることも年々減っているので、いろんなことに興味を持って取り組もう。
  • アメリカにインターンに行った経験からすると、TG(学生なら誰でもFreeDrinkFreeFood)など企業の方と接するカジュアルな場がちょくちょくある。日本でももっと用意して欲しい。
  • (プチ)ロールモデルになる目標になる人を探し、そうなるよう努力しよう。全てが困難なら一部でも良い。
  • やってることを分かりやすく公開しよう。公開手段は豊富にある世の中になった。
  • 就職するときというのは、自分が何をやりたいかというのがまだ見つかっていない状況かもしれない。しかしだからこそ、興味ない会社でも良いと思うから、会って話をすることが大事。まとめて話せるようになることによって自分が見えて、自信が生まれてくるのだと思う。
  • 学生の頃、入社した時点では良くも悪くもぱっとしなくとも、入社後に光り輝く人材も少なくない。それまで見えていないだけだったかもしれないが、具体的な問題に対面することでモチベーションを持って取り組んでいるからかもしれない。こういう人材をどうやったら探せるのだろうか。
  • 友情(一人でできることなんてたかがしれている。一緒にやる人を探し互いに助け合う。信頼関係)、努力(努力せずにやれることはどこかで既にやられている)、勝利(小さくていいから目標を決めて、達成する。それを徐々に上げていき繰り返す)!
  • 今は、効率とかそういうのが求められていて、車輪の再発明は怒られることが多い。ただ個人的には良いと思っていて、学生には再発明で良いからどんどん人の真似をして欲しい。やってみて初めて見えてくるものがある。

リスク・テイカー論

  • リスク・テイカーになろう。そのための教育というのはあるのだろうか。
  • そもそも「何もしない」という大きなリスクを選択していることに気づこう。
  • 「リスク=自分の何かを犠牲にすること」ではない。好きなことに没頭してやっていることが、他人から見ると結果的にリスクを選択していたということが少なくない。好き勝手にやろう。
  • 外に出ない学生は危機感が欠落し過ぎ。中国も教育レベルは向上しており、国際全体が競争相手の世の中に突入するのは目前ということに気づいていない。例えばスタンフォード大で大挙して留学に訪れ「俺ここで学ぶんだぜ!!」と熱意を持ってる学生の割合は年々増加している。日本人もいないわけではないが、少ない。一度は留学なりで外に出よう。
  • 日本に留学に来ている身としても実感しているが、留学するリスクは比較的得られるものが多く、積極的に取るべき候補だと思う。
  • 優秀な学生とか何とかよりも「やったか」「やらなかったか」。失敗してもそこから学べば身になる。

就職活動論

  • 学生は何故ここまで凝り固まった考え方/アプローチの仕方を選ぶのだろうか? 就職活動時期を柔軟にして欲しいとの声もあったがどちらかと言うと紳士協定があるから「新卒採用枠」を一定の時期に設けているだけで、そこに拘っているわけではない。むしろ今なら中途採用の方が見てもらえることの方が多い。中途採用以外にもいろいろルートはあるが、一般的なルートでないところを強行突破するにはそれなりの「何か」は必須。強者論の話。
  • 今回のワークショップに学部生も結構参加してくれていることは素直に喜べる。だけど、懇親会で企業の人から名刺貰った人はどれぐらいいる?勉強会でも何でも良いから、切っ掛けがモノにする努力をするべき。自分から声をかけ難いなら先生に取り次いでもらうのも良いだろう。
  • 一方で、いろいろお膳立てしてもらわないと動けないという学生は、就職後に本当に役立つのだろうかという不安を感じている側面もある。本当にやりたいことがあるなら、学会でも良いし、ブログなりツイッターなりカジュアルな方式でも良いからどんどん学外/企業/世間に向けてPRするべき。情報発信する努力をしない人は、そもそも企業からは「見えない学生」。
  • 就職すると縛られてやりたいことがやれないとか考える人もいるかもしれないが、就職してみた立場としては案外そうでも無いなという印象。見えないから分からない、だから何となく不安というのであれば、会社見学でも勉強会でも今回のようなワークショップでもイベントをセッティングして呼んでください。企業は忙しいからイベントをセッティングするまでやるのは大変だが、呼ばれれば喜んで行く所が多い。

インターン論

  • 企業を知る一つの方法。
  • インターンは数ヶ月以上長期のものがベターだとは思うが、それ以上に大切なのは「インターンで何かを持ち帰る」という強い意識。目的が不明確なまま来ても身に付かない。
  • 留学兼ねて海外インターンもある。最低限の英会話は必要だが、それ以上にモチベーションが重要。世界各国からインターンに来る学生らとどう絡むか。積極的に交流する努力も大切。
  • インターンに行ったことは無いが、学生と企業の関係にもいろいろあるのでは。

関連リンク

NLP2011, 本会議3日目終了(セッションE3:不自然言語処理 枠に収まらない言語表現の処理(1)、B4:対話・文脈処理、A5:教育応用)

木曜日, 3月 10th, 2011

NLP2011、本会議3日目(一般講演セッション3つ)。
本会議最終日は、
 E3:不自然言語処理 枠に収まらない言語表現の処理(1)
 B4:対話・文脈処理
 A5:教育応用
に参加してきました。

夜は交流行事があるようなのですが、力つきて見送ってしまいました。明日もまだあるし。というか皆さんほんと体力ありますね(汗)

三日目にしてようやく「素性」の大切さというか、高精度を実現しようとすると苦労するポイントが似通ってくるんだなというのが分かってきました。それぐらい、多くの発表で出てくる話題。人間ってどうやって素性を捉えているんでしょうね。

目次
E3:不自然言語処理 枠に収まらない言語表現の処理(1)
 ・文頭固定法による効率的な回文生成
 ・日本語常用漢字熟語の選好変化と自然言語処理
 ・「不自然言語処理コンテスト」第1回開催報告
 ・ウェブからの疾病情報の大規模かつ即時的な抽出手法
 ・データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法
 ・感情推定における若者言葉の影響
 ・教師付き外れ値検出による新語義の発見
 ・定型から逸脱した言語表現の分析

B4:対話・文脈処理
 ・POMDPを用いた聞き役対話システムの対話制御
 ・対話型e-Learningシステムの開発
 ・共通状態と連結学習を用いたHMMによるコールセンタ対話の要約
 ・コールメモを利用したコールセンタ向け音声対話要約方式の提案
 ・Toward Plan Recognition in Discourse Using Large-Scale Lexical Resources
 ・視線情報を利用した協調作業対話における参照解析
 ・直接照応解析における分野情報および文脈情報の有効性検証

A5:教育応用
 ・学習指導要領に立脚した児童作文自動点検システムの実現
 ・非日本語母国話者の作成するシステム開発文書を対象とした助詞の誤用判定
 ・翻訳教育向け「みんなの翻訳」
 ・Stativity判定に基づいた時制誤り検出
 ・最大クリーク探索に基づく特許検索履歴の統合
 ・テレビスポーツ番組におけるリアルタイム字幕の特徴





E3:不自然言語処理 枠に収まらない言語表現の処理(1)
3月10日(木) 9:00-11:50 A1-301教室  座長: 村上浩司 (楽天)
E3-1 文頭固定法による効率的な回文生成 (pp.826-829)
○鈴木啓輔, 佐藤理史, 駒谷和範 (名大)
回文条件3つ  語順+文法+意味  機械での判断難易度:語順<文法(文節内文法+係り受けチェック)<意味   語順+文節内文法までのチェックを行う 回文条件1のために、網羅的生成では時間がかかりすぎる  折り返し固定法→文頭固定法(シード文節を文頭文節にする)   初期状態数が減る+初期状態での不足文字列が現れ難い    文節数3: 21時間→42分 文節集合のクリーニング  JUMAN形態素辞書から読み2文字以下の語構成要素を人手で削除  コーパス対応  →生成数・生成時間が1/3に、高精度で生成できた   JUMANで「罪」を常に「ざい」と読んでしまう等で生成できない回文もあった Q: 直接的に何に利用できるか想像つかないけど、「お遊び」を解析すること  で得られる知見が間接的に応用できることはありえそう。どういうものが  あるだろう。。 会場Q: (1)折り返し固定法と文頭固定法とで良い回文生成という点でどういう  違いがあるか。(2)多くの時間がかかるが、アルゴリズムやデータの持ち方  についてどのぐらい高速になったのか。 A: (1)全文生成なので同じ。(2)いろいろ工夫していたがこれまでは劇的な  改善には結びつかなかった。今回の手法で初めて大幅に改善できた。 会場Q: 今後の課題について、生成候補を文法や意味的に絞り込むようだが、  単語の言語モデル等を考慮して自然な文にすると想像するが、最初の段階  でランキングするといったことは考えられるか。 A: 係り受けチェックや意味チェックは動的にやっていきたいと考えている。 会場Q: 回文は楽しいと思うが、3文節ぐらいだとつまらないように思う。  人が頑張ると持ってできそう。長くなる程人間にはできなくなると思うので、  生成した回文を公開して欲しい。 A: まだ公開していないが、ちゃんとチェックしたら公開できるようにしたいと思う。
E3-2 日本語常用漢字熟語の選好変化と自然言語処理 (pp.830-833)
○砂岡和子 (早大), 羅鳳珠 (台湾元智大)
中国台湾香港との共同研究。 不自然な言語をどう扱うかというより、教育という観点から、 発話される言語そのものをどう扱うかということについて取り組んでいる。 日本人中国語学習者がどの程度認知しているか  四字熟語、故事成語の計328語が対象  小学生対象時には、一部をひらがなに置き換えて実施   半数以上が認知できない慣用句もあり    親子関係、生活環境の変化   若年層の慣用句の誤用は年々増加傾向   情報収集はネット経由が過半数になりつつある    言葉の意味やニュアンスが変わる   入力ソフトで出てきた候補を選んでしまう 言語資源の階層  子供の言語→地域言語→広域言語→グローバル言語  音声言語→文字言語  インフォーマル言語→フォーマル言語 Q: ネット経由での情報収集が増えると、言葉の意味やニュアンスが  変わりやすくなる? 身内用語(用例)が増えるということかしら。 会場Q: 故事成語だと時代毎に変化がありそう。それらを複数登録すべきなのか。 A: どちらもありえる。両方併記の上、意味を解説するという方針もあると思う。 登壇者Q: 言語政策そのものには関心があるのか? A: Google 日本語入力作っているが、正しい日本語入力をしたいという人に  対応できるように作りたいと考えている。
E3-3 「不自然言語処理コンテスト」第1回開催報告 (pp.834-837)
○萩原正人 (楽天), 大原一輝 (フリー), 水野貴明 (バイドゥ), 橋本泰一 (東工大), 荒牧英治 (東大), 竹迫良範 (サイボウズ)
背景  ノイズの存在  実データは「(綺麗な)文法的な言語表現」の前提が崩れる 不自然な言語現象  変則的な固有表現・未知語:モーニング娘。せきじゃに  口語表現・オノマトペ・新語:本田△  異表記・表記揺れ・略語等:ふいんき(なぜか変換できない) kwsk ギャル文字  顔文字・AA・絵文字  スパム検出、不正検出  スペル訂正  etc. 不自然言語処理コンテスト  お題「不自然言語を使ったコミュニケーションを豊かにするサービスや作品、     プログラムなどを作ること」  発表形式・形態は自由  モバイルWebの形態素nグラム統計を公開   絵文字を形態素として含む   キャリア別   MeCab+IPADicにより解析 受賞作品紹介  グランプリ「Soramegraph」   Tweetのなんとかをなんとかに空目した   →空目した関係を可視化  準グランプリ「誤字ェネレータ」   ワザと類似した誤字に変換   画像の類似度を測って、割と真面目。  審査員特別賞「感情のこもった返答テンプレ生成君」   例:テンション高いテンプレ(近いもの)を利用   「飲み会行きましょう」→「是非行きましょう!」 LT賞「ケンブッリジ大学」  検索避けのため不自然な言語を使うという現象  ただし、書きづらいし、読みづらい→コミュニケーションが非活性化  →ケンリブッジ大学   文字列を画像化   文字順番は割とばらばらでも読める   「こんにちは!不自然言語処理セッションへようこそ!」   →「こんちには!不自然言語処理セシッョンへようこそ!」  単にゴミとして扱うのではなく、親密度として扱うと面白いのでは。 応募作品総評  作品傾向:絵文字挿入や不自然なことばに書き換えるもの  Perl, Ruby, Python などのLLでの実装 Q: 「単にゴミとして扱うのではなく、親密度として扱うと面白いのでは」  という視点が面白い!目的によってどう扱うかはちゃんと検討しないとね。 会場Q: 日本語以外にも、他の言語でもやり始められていることなのか。 A: 英語ではノイジーテキストを処理しようというワークショップが開催  されている。他言語でもあると思うが、英語以外では把握していない。 会場Q: ワザと不自然言語に変換するというのは他言語でもあるのか。 A: 絵文字やギャル文字の文化は、把握している限りでは日本語で文化が  進化。表現しやすいというのもあると思うが、既に文化として根付い  ているのは日本語ぐらい。 会場Q: 境界はあるのか。 A: グレーな所が多いと思う。AKB48がイレギュラーとか簡単に断じる  ことができる、そもそもどう定めるべきかから考える必要があると思う。
E3-4 ウェブからの疾病情報の大規模かつ即時的な抽出手法 (pp.838-841)
○荒牧英治 (東大), 森田瑞樹 (医薬基盤研究所), 篠原(山田)恵美子, 岡瑞起 (東大)
例:カゼミル 調査集計には時間がかかり、集計後には既に蔓延していることがありえる。 Twitterで検索クエリを人手で準備し収集  「風邪」→風邪、熱、インフルエンザ   ただし実際に流行している訳ではなく噂としての流行も拾ってしまう  「ひきそう」→願望/予防はフィルタリング  動物の症状や誤字→フィルタリング 学習器による事実/非事実判定≒スパム判定  内容(命題)の妥当性+モダリティの妥当性  条件毎にコーパスを作成し、2種類の判定器を構築   命題とモダリティ両者が正しいなら事実クラス   周辺語のBOW(window size=6が最も良かった)   ベースラインより若干改善するが、タスク毎に差もあり要調査   SVM以外も試してみたが比較的どれも良く、一番良かったのはNaiveBayse  どの程度、現実を予測できるのか   国立感染症情報センターの報告との相関係数   2008年、Googleより提案手法が若干良い結果。   2009年夏、Twitterが噂に反応しやすいのか、悪い結果に。   ピーク前後で比較すると、前は過剰反応する傾向あり。   その部分ではGoogleより傾向を取りやすい。 Q: 噂センサーとして、流行前兆についてヒットしやすい点を、単純に「命題+  モダリティ」という点で学習(フィルタリング)してもあまりうまくいかない  という結果だと思うけど、これ、人間でもうまく判断できない問題設定  (かなりタフなタスク)だったり? 何を根拠に信じるかというのは  その人の環境要因が大きく作用する面もあるだろうし、内面的な要因  が強い場合もあるだろうし。うーん。。 会場Q: ツイッターをセンサーとしてみるのは面白い。niftyでも花粉症で  似たような話をされていた。センサーとして考えると感度や地方差がある。  関西では花粉との相関が低いらしい。理由は良く分からない。 A: 花粉症も一緒にやっており、spin out してやっている。アイデアは今の所  まだないので、何かあれば。 会場Q: モダリティについて、人に直接確認はされたのか。 A: 現状の技術でリーズナブルだと思う。 会場Q: 不自然言語処理のセッションとして、言語処理をキチンとやった  場合と統計ベースとの比較はしているのか。係り受け解析とかやるより  統計解析の方が良かったのか。 A: ツイッターの場合には構文解析精度が落ちると予想し、今回は試していない。 会場Q: 文字列や文末を使うというのは。 A: 文末だけ別に加える等もできそうで、興味深い。 会場Q: ピーク前後といったことを考慮した数理モデルを用いた方が、  より精度が高くなるのでは。 A: 考えてみたいと思います。
E3-5 データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法 (pp.842-845)
○鈴木徹也 (芝浦工大)
テキストアート(アスキーアート)の抽出  行指向(複数行で構成された行単位のもの)のテキストアートを扱う  テキストアート識別法  テキストアート抽出法(範囲を判定)  空白の取り扱い   全角半角が混在。視覚的には空白だが何も無い箇所もある。   →空白の正規化手法を確認したい 言語に依存しないテキストアート抽出法  辞書や文字出現頻度を用いない  テキストアートらしさ  利用する属性   ランレングス符号化による圧縮率   行数   文字列長 抽出概要  候補範囲の決定→窓内のテキストについて識別することで範囲決定  機械学習c4.5で識別  正規化3種類+正規化無しの4パターンを比較   半角スペース統一/AA右側に不足分追加/AA左側を削除   Q: テキストアートって何らかの生成システム使ってることが多いと思う  (多分)のだけど、いくつかの生成システム自体の入出力特性を見る  ことで「テキストアートらしさ」を傾向として捉えることできたり  しないのかしら。 会場Q: 窓をスライドさせてテキストアートらしさを判定しているようだが、  アートによっては左にもキャラクタや何かしらおいてることがあるが、  一部分に窓を設定することはできるか。 A: 今の所考えていない。圧縮率を見ようとするとちょっと困難。 会場Q: どういうのが取れない、というのはあるか。ざっと見て取れるかなと  思ったが、逆に取れないものがあるのか。 A: 実験のデータでは割と取れているが、2chとかに適用すると取れないのが多い。  数式とか。 会場Q: 目標は何か。取った後で何をする? A: テキストアートの範囲だけでなく、予めテキストアートDBを作っておいた  ものと比較してどれに近いか、といったことを考えている。
E3-6 感情推定における若者言葉の影響 (pp.846-849)
○松本和幸, 任福継 (徳島大)
くだけた口語表現、多様な新しい表現(若者言葉など) テキストからの感情推定  若者言葉を既知語に変換する事例があるが、  元語が必須で、かつ変換することで微妙な意味の変化が失われる可能性。  →そのままの形で感情推定する 問題点  多くは未知語で正しく形態素解析できない事が多い  若者言葉感情コーパス(WKEC)を構築   コーパス分析するとそれなりに感情推定できる傾向がありそう 若者言葉を素性にした場合とそうでない場合とを比較  ベースラインを平均14.9%上回る精度  SVM vs. NB -> NBが高い Q: 「若者言葉を素性にしない場合」というのは形態素解析失敗結果を  そのまま素性にした場合? N-gram素性とどっちが良いのかな。 会場Q: 若者言葉感情コーパスに関して。(1)作業者2名は若者だったんでしょうか。  (2)そのコーパスを公開する予定があるか。 A: (1)私自身+学生。(2)公開したいと思うが、個人名が多く入ってたりするため、  整理してからの予定。 会場Q: 若者言葉が入っていることを検出する際、mecab辞書として登録した?  別処理で対応? A: コーパスに付与している若者言葉をそのまま素性とした。誤り分割結果に  ついて観察した結果、形態素解析結果は使っていない。 会場Q: 感情を13種類としたのは何故? A: 心理学での分類を考慮しつつ、増やしている。 会場Q: クラスが増える程当らなくなる、一致しなくなると思う。例えば怒りと  嫌悪は近いとかあるのでは。 A: その通りで、人によっては怒りと捉えたりという差異が見られた。  タグ付与者は別々に作業した。 会場Q: 若者言葉に感情表現が多く含まれているというデータは何かしら  あるのか。そうでないと、今回は単にそこにタグを付与したから  うまくいったという結果でしかないと思う。 A: そういうデータは今の所ない。 会場Q: そこの検証をしないと、若者言葉に着目した方が良いという  根拠としては不十分では。 A: その通りで、今後分析していきたい。
E3-7 教師付き外れ値検出による新語義の発見 (pp.850-853)
○新納浩幸, 佐々木稔 (茨城大)
対象単語の用例集から、その単語が新語義となっている用例を検出したい。  辞書の拡張、管理。  仮説:新語義は用例集内の「外れ値」になっているだろう  →外れ値検出 LOF(Local Outlier Factor) 大きく外れている値だけでなく、近い外れ値も取りたい。  単純は外れ値ではない。  新語義の場合は定義可能なので「教室付き」外れ値検出  識別の信頼度は無益でクラスタまでの距離を考慮する必要あり   教師付きLOF+LOF値の大きい上位を対象   教師データがあってもクラスタ分布が未知。マハラノビス距離は意味が無い。   距離だけでなく分散も必要   →重心を利用した外れ値の度合い 実験  SemEval-2 日本語WSDの48単語  与えられた語義に該当しないものもある  2400用例中16用例が新語義   F値: LOF=LOF+OneClassSVM<OneClassSVM<教師付きLOF<提案手法   基本的に低い  誤検出の原因   特異用例(誤り、専門用語):「そんな時間必要ないけど」   書き誤りに近いもの:「私が子供産んだとき」   距離の差がほぼ同等   パラメータの問題 Q: クラスタリング(ベクトルやクラスタ間類似度)じゃなくて、  別のアプローチが考えられないのかしら。教師データを設定  しやすいというのは大きなメリットだと思うし。 会場Q: 使ってる素性は? A: WSDで使う一般的な素性。 会場Q: そうすると、未検出が多い場合にはその素性が役に立たないのか、  距離計算の方が問題? A: 素性の方が問題。多分、無理なんじゃないかと。素性が悪いと距離も悪くなる。  今回の用例では偏りのあるタスク過ぎるというのもあるかしれない。
E3-8 定型から逸脱した言語表現の分析 (pp.854-857)
○土屋智行 (京大/学振)
定型とは  複数の語が様々な組み合わせで慣習化し、定着したもの。  あらゆる語のあらゆる組み合わせが存在   字義的な意味と異なる場合、解釈すら難しい場合(手を焼く)  定型は頻繁に破られる   例:「鬼に金棒 弁慶に薙刀 ローソンにATM」   →前段無くても意味は分かる。    人は、逸脱表現の「元表現が何なのか」を特定し、    「意味的な差異」を理解できる    →定型の逸脱表調査とその分析 どれだけ逸脱しているか(逸脱バリエーション) 元形式がどれだけ保持されているか(定型的な表現の特徴)  「NP1にNP2なし」の表現4例  Sketch EngineのJpWaCコーパス(ウェブコーパス)から抽出   元表現より逸脱表現が多いものも、逆傾向もあり。   Pattern Lattice Builder (PLB) で分析    組み合わせ抽出ツール    パターン生成し、説明力のある接続ノード数を調査 様々な逸脱用法があるが、
話者にとって逸脱しやすいパターンとそうでないパターンに偏りがある。 元の表現を喚起しやすいパターン等への分析へ。 Q: 「定型は頻繁に破られる」の破られ方をパターン的に調査しているが、  PLBのような定型化しやすいパターンでは補えない(見過ごしている)が、  人間だとパターンとして認識しやすいものって無いのだろうか。  例えば「いとをかし」とかは単体じゃなくて別の文と一緒に使うことで  初めて違う意味を持たせる、みたいなものだろうし。ただの多義語? 会場Q: 考察対象にしたのが元表現の形態素のみを含むパターンになっているが、  そうではないパターンでかつある程度の頻度が高いものがあったとしたら、  どういうものがあったのか。 A: 例えば「触らぬ神に祟りなし」だと「神」が変えられている例が多数が  ある一方で、異表記パターン(祟り、たたり)もあった。 会場Q: 検出を考えると、そういうのがあるなら、元表現と同じではない  逸脱パターンを見つける方向にいけるのではないか。 A: 可能性としてあることは認識しており、今後考えていきたいと思う。
B4:対話・文脈処理
3月10日(木) 13:00-15:30 A2-101教室  座長: 駒谷和範 (名大)
B4-1 POMDPを用いた聞き役対話システムの対話制御 (pp.912-915)
○目黒豊美, 東中竜一郎, 南泰浩, 堂坂浩二 (NTT)
聞き役対話  二者間の発話で一方が聞き役、多方が話役という役割を持った対話  聞き役は相づちだけではない  質問したり自己開示(自分の意見)したりして、発話を促す、引き出すことが重要  「聞いてもらいたい」という欲求を満足させる 発話理解部+対話制御部(対話履歴)+発話生成部  今回は対話制御について。   例)ノンバーバルな聞き役(ジェスチャー)    →言語表現でやる POMDP: システム・ユーザのインタラクションをモデル化(する機械学習)  報酬(あるアクションの結果の望ましさ)の平均値を最大にするアクションを選択  ただしタスクが明確でない対話への応用例はない  →ユーザ満足度+自然性の二種類の報酬を導入   DBNでシステムとユーザの振る舞いをモデル化   アクションに報酬を与える構造(POMDB)に変換    HMMやEvenPOMDPより高評価 Q: 制御部の話だから出力をどう生成するかについての話がなさそうなんだけど、  強化学習するには出力が必須なはず。文選択させるとかで疑似出力に  してたりするのかな。  →カテゴリ 会場Q: 満足度と自然性の両方を定義したとのことだが、バランスも重要では。  そこも強化学習の枠組みでやっているのか、単純に5部5部なのか。 A: 足しているのだが、重みは数パターン試した上で調整した。そもそも異なる  スケールなので、単純に重みとして言えるかは分からないが、  満足度:確率で確率の方が4,5倍して、同じぐらいになるように調整してある。 会場Q: 何を評価しているのか良く分からなかった。シーケンスを評価している? A: 本当に評価したかったのは対話行為の列だが、人手で対話文を生成した上で  評価した。 会場Q: そこはくせ者で、何を「自己開示」にするかがコントロールされないと、  何を評価しているかが分からないのでは。 A: 文生成にはルールを決めた上で、キーワードを埋め込む形で生成。  いくつかルールがあるが、そこからの選択は人手になっている。 会場Q: そこをコントロールしないと、どちらが効いているのかが良く分からない。 A: 16人に生成してもらった上で評価しており、  ある程度ならされた評価にはなっていると思う。 会場Q: 対話行為を自然文になおすというのはとても難しい。コーパスに対して  スコアリングしていて、一番右側の文を自動生成できない理由は? A: 今回の学習は対話行為列をアノテートしたものを使っており、  出力は対話行為までが限界。 会場Q: そのままだと汎化しすぎているように見える。
B4-2 対話型e-Learningシステムの開発 (pp.916-919)
○峯脇さやか (弓削商船高専), 嶋田和孝, 遠藤勉 (九工大)
優れたIT人材  ITに関する知識や技術を持ち、コミュニケーション能力がある  e-learningは基本的に一人で取り組むもの   孤独でモチベーション維持困難   うまく質問できない   →システムに質問しながらe-learningコンテンツに取り組む    学力向上+質問する力(決まり文句を身につけた上で) 発話理解は簡単なパターンマッチング(決まり文句を身につけさせるため意図的) 想定される質問の分析  システムが受け付けるもの→ヒントを与える  それ以外→受け付けない  対話の流れをモデル化 Q: 質問する時の決まり文句より、質問対象をどのように捉えて、どこを  聞こうとしているのかを明確にするところの方が大切な気もするが。  「動かないんですけど」「何が?何をどうやった?」とかそういう  意味では別セッションであった質問支援システムの方がやりたいことに  近いのかな。 会場Q: このシステムだと、仰れた通り質問する力は身に付くと思うが、  自分で調べる力を付けることにも考慮して欲しいと感じた。質問ですが、  ルールの生成にはどのぐらい時間がかかったか。全体のスクリプト。 A: 今回のは課題26個、小問題が各々2〜4つ。学生数人に取り組んでもらって  約2ヶ月。 会場Q: 直接人間が教えるよりもコストが低くなる方が望ましいと思うので、  省力化できるように考えた方が良いだろう。 A: スクリプトの自動生成を検討中。 会場Q: 限られた文しか認識できないとのことだが、その文は生徒には  示しているのか。 A: こういう質問したらいけるよといったアドバイスはしたが、  マニュアル提示まではしていない。 会場Q: マッチしない時に「受け付けていない」だけではユーザが頑張れないのでは。 A: 学生のアンケートで読み取りに式結果が余り良くなかったという意見はあった。  そこは良さそうなソフトを使うぐらいの話。認識誤りがあってもまだ  ポジティブに受け止められている。
B4-3 共通状態と連結学習を用いたHMMによるコールセンタ対話の要約 (pp.920-923)
○東中竜一郎, 南泰浩, 西川仁, 堂坂浩二, 目黒豊美, 小橋川哲, 政瀧浩和, 吉岡理, 高橋敏, 菊井玄一郎 (NTT)
コールセンタ対話  比較的短くくて120発話(一般に5分程度だが、1時間とかのもかなりある)  オペレータの振り返りが困難   監督者による業務内容把握が困難のため、改善に繋げられない  抜粋してどういう対話があったかが短時間で把握できる要約を生成したい   ルール生成型ではコストが高く、ポータビリティが低い アプローチ  自動学習  コールセンタ対話の特性を利用   量が大量   多くのドメインの対話を扱うことがある    故障受け付け、引っ越し、契約、、、(数十〜数百個)   各対話にはドメインラベルが付与済み   →各ドメインに特徴的な発話系列を抽出して要約生成 各発話にドメインラベルを付与し、該当ドメインに特徴的な発話のみを抽出  個々ドメインをモデル化→エルゴディックHMM   個々ドメインから学習したHMMを等確率で接続   そのままでは「確率が高い方」のみが選択   →全てのドメイン(ドメイン0)から学習したHMMも足してやる    しかし平均になるためほぼ利用されない    →連結学習の導入     ドメイン0+ドメイン1で再学習、ドメイン0+ドメイン2で再学習、、     を繰り返すことで連結学習。     再学習ではEMアルゴリズムにより、よく出現する発話の確率が高まる。     結果として、ドメイン0側では共通的な発話の出現確率が高まり、     選ばれる確率が上がる。      少ないデータからでも効率的に学習可能 Q: ドメイン別の学習をしつつ、全体としてどう組み合わせるかのバランスを  再学習という形で補うのは面白いと思うが、後からやるのではなく最初から  マルチクラスとしての学習をするのとどちらが効率&精度的に良いのだろう。 会場Q: (1)コールセンタのオペレータにとっての振り返りには良いが、  業務改善については繋がらないようにも感じた。改善に繋げるのに  どういう要約を検討しているか。  (2)発話シンボルに変換して学習するとのことだが、挨拶ぐらいの尤度だと  どのドメインでも変わらないように思う。どのぐらいの値か。 A: (1)直接的に改善に繋がるかは分からない。まずはブラウジングを  想定している。重要な部分のみを見つけやすくすることで間接的に  役立つと考えている。(2)発話シンボルは今は100にしている。  いくつか試した範囲ではこれが適当だった。 会場Q: 解約したいという場合にはどういうイベントなのかがマークされていたが、  実際に欲しいのは「どういう理由で解約したいと考えたのか」  といったところでは。そういうのも取れてくるのか。 A: 難しい。目的がおおよその発話内容を把握可能にすることなので、  特徴的なものが出てくるところまで。個々の詳細については、  その後の話で、今は入り口としての形を考えている。 会場Q: それだとカテゴライゼーションと同じに見える。 A: カテゴリではなく、客が満足したとかしてないといった場合に、  その対話の特徴を取れるという可能性がある。もう少し工夫が必要だとは  考えている。
B4-4 コールメモを利用したコールセンタ向け音声対話要約方式の提案 (pp.924-927)
○田村晃裕, 石川開 (NEC)
コンパクトな要約テキスト(音声)のニーズが高い  アブストラクト型/抜粋型  教師データの有無  →教師データを使用しない、抜粋型要約   tfidf法:業務上必要箇所と一致しない。頻出する要件が含まれない。口癖が含まれる。 コールセンタのニーズにあった要約生成  蓄積されたコールメモを利用し、要約に含める。  使い方に工夫が必要   ベースライン:MF法(出現頻度が高い箇所を抽出)    通話とコールメモでの表現の不一致を考慮できない   提案手法:AS法    通話とコールメモの単語の相関を用いて表現不一致問題を解決    各単語の重要度=同一内容らしさ*コールメモにおける重要度   不要発話削除の導入    「はい」「えー」「○○コールセンタです」    発話出現頻度が閾値以上の発話 Q: 抽出したい「重要語やそれを含む文」にもケース次第で大きく異なる  というのは面白い。汎用的にパラメタライズで「こういうケースの重要語」  というのを抽出しやすくできたりするのかしら。 会場Q: 二つの軸でindicative/informativeとのことだが、同じものに対して  2軸で評価した? A: infomativeは通話内容を漏れなく含む要約で、60%ぐらいに圧縮されたもの。 会場Q: F値が0.5ぐらいというのは、どのぐらい良いと思うのか。直感で。 A: 書き起こしに対して0.5ぐらいだが、実用に堪えうるかなというレベル。  音声認識誤りが含まれると、誤りを含む形で要約してしまうため対応が必要。 会場Q: 書き起こしを使うというのは実用としては考え難く、それぐらいなら  コールメモが良い。如何に精度を上げていくか。音声認識誤りの対策として  どういうことを考えているか。 A: 音声認識結果を良くしようというスタンスではない。誤りが含まれた  要約テキストを見せてしまうと分かりづらいので、音声を聞くことで  要約されたテキストの音声を聞くことで人間側で補正できるかなと考えている。 会場Q: 音声認識の精度はどのぐらいなのか考えてないとのことだが、  仮に100%だとした場合の評価があれば。 A: そのつもりで書き起こしで評価を行った。
B4-5 Toward Plan Recognition in Discourse Using Large-Scale Lexical Resources (pp.928-931)
○Naoya Inoue (東北大/学振), Kentaro Inui (東北大)
談話の背後には登場人物の目的達成のためのプランがある そのプラン(goal-means tree)を文章から自動的に生成する 談話解析には世界知識が必要だが、昔は利用できるものが殆どなく、 研究としては廃れてきた  今ではFrameNet, WordNet等の大規模な世界知識が利用できるようになってきた  →やってみよう! プラン推論のモデル  談話から合理的な説明を求める→説明から目的/手段の関係を抽出  説明を求めるとは   仮説推論 abductive inference    背景知識Bと観測Oから最小の仮説Hを求める推論    細小にも色々ある:ここでは可能な仮説の中でリテラルが最小のもの   →知識ベースに目的/手段関係も埋め込み、推論できるように工夫 知識ベース  既存の知識を変換したもの   同義語、上位下位等:数百万オーダー   極性知識:数万オーダー  人手でエンコードしたメタ・ナレッジ   一般的な知識 知識ベース充足性の確認実験  人手で同定した仮説推論まで辿り着けるか、推論パスを埋めることができるか  77.4%のアクションに対して埋めることが出来た   そのうち半分はメタ・ナレッジを使う必要あり  失敗例の多くは固有知識が不足(カビキラーは何のために使うのか) 語彙知識はそれをどう使うかを考える段階であって、既に十分にある。 推論ルールが重要な役割を果たしていた Q: メタ・ナレッジ部分が結構効いているようだけど、この部分はどのぐらい  質・量を用意したらどのぐらいの精度が出るか、といった目安はあるの  かな。他との兼ね合いだというのは分かるけど、応用した結果を評価する  のではなく、知識ベースそのものを評価するという意味で。 会場Q: 計算量はどれぐらい? A: 仮説推論をやって、最小仮説推論求めるのはNP-hard。 会場Q: 今後どういう方向を考えている? A: 将来は重み付きabductionがあり、それを考慮しつつ自動化していきたいと  考えている。 会場Q: ドキュメントはどんな文?ドメイン的な意味で。 A: 家事。 会場Q: 足りない知識は、ドメイン依存だと思う。こういう知識が  足りているのかという意味でいろんなドメインを試してみる必要が無いか。 A: 固有名詞に対する知識が足りていない。様々なドメインで出てくるだろう。  どんなドメインでやるにせよ獲得する必要あり。 会場Q: 正しくない解釈が得られる可能性もありそうだが。 A: 今回は別の問題として考えていて、今回は正しい説明が入ってくるかを  考えていた。正しくない候補が入ってくる可能性はでてくると思う。 会場Q: より小さくて、正しくない候補が入る可能性。 A: 確認してみたいと思う。
B4-6 視線情報を利用した協調作業対話における参照解析 (pp.932-935)
○安原正晃, 飯田龍, 徳永健伸 (東工大)
人間と協調作業を行うシステム  参照表現:参照解析+参照表現生成  対象は参照解析(視線情報)   人間が無意識に生み出す情報のため負担が少ない 参照表現コーパス  協調作業対話コーパス:参照表現に人手でアノテーション   発話テキスト、ピースやマウスの位置など 参照解析手法  特徴ベクトル→ランキング・モデル   素性:談話履歴情報10個+オンマウス情報6個+操作履歴情報6個+視線情報6個   注視:100ms以上留まった場合。連続した視線位置の重心。   抽出区間毎に3つの素性を計算   予稿集には結果に誤りがあり、より高いスコアが出た Q: オンマウス情報使ってるなら視線情報要らないんじゃと思ったけど、  何故精度改善に貢献したのだろう。数値化することにトリックがあるのかな。 会場Q: 視線情報とオンマウス情報は近いように思うが、どのぐらい一致するか。  改善したということはオンマウス情報より情報量が多いようにも思えるが、  履歴の有無が関係しているのか。 A: (1)視線情報とオンマウス情報の違いについてはまだ未解析。(2)オンマウス  情報には履歴が効いていなかったのではという点ついては、  それらを用いない場合でも殆ど精度が変わらない。 会場Q: 代名詞の場合は下がりますよね。代名詞の時と非代名詞の時の違いが面白い。 会場Q: 視線情報はどのぐらいの区間や時間で参照したら良いのか。  広過ぎてもピンポイント過ぎても扱いが困難だと思うが。 A: 今回は決めうち区間で試した。1300msとしたのは、  平均して高いスコアが出る区間だったため。
B4-7 直接照応解析における分野情報および文脈情報の有効性検証 (pp.936-939)
○浜田伸一郎, 齋藤佳美 (東芝ソリューション)
直接照応解析  ある談話要素が指す、同一の事物や意味を持つ、他の要素を推定する技術   先行詞->照応詞  曖昧な語を具体的な語に置換したい(例えば要約)   直接法/全体法:両者とも欠点   表層一致ペア/表層不一致ペア    語彙分布は類似    語彙的関係は異なる    割合は:一致ペアは70%、不一致ペアは30%程度の差    →混合法     直接法同様、表層不一致ペアの解決が目的     ただし語彙分布の特徴で補完 表層一致ペア→表層不一致ペア  転移学習+表層一致ペアで用いられた語の頻度利用  文脈的素性:表層・意味が一致する近傍の表層一致ペア数  →両者とも改善に寄与 Q: TLみたいな「他人のツイートや話題」に対する照応みたいなところにも  使えるのだろうか。 会場Q: 効果のなかった素性はあったか? A: 今回提案した素性以外は標準的なものを用いて、  試した範囲では比較的有効であった。 会場Q: 要約に使えるという例は分かりやすかったが、  新聞記事にやるという場合でも同じ問題になるのか、差があるのか。 A: これは新聞記事の例で、同じ。 会場Q: 今後の部分一致しているのとしていないのとでどれぐらいの差があるのか。 A: 機械学習の重みとしては表層部分一致は結構重みが大きく、有効だと思う。 会場Q: 部分文字列で失敗するケースでは、ある程度予測がつくと思うが、  それは素性では含まれているか? A: 例えば表層が同じでも意味が違う場合には、意味の所で棄却できると思う。 会場Q: 意味素性でも同じでは? A: 意味素性では異なる。
A5:教育応用
3月10日(木) 15:50-18:20 A1-101教室  座長: 田中久美子 (東大)
A5-1 学習指導要領に立脚した児童作文自動点検システムの実現 (pp.1045-1046)
○藤田彬, 田村直良 (横浜国大)
文章の自動評価が必要となる場面が年々増加する見込み  記述式を含むe-learning/小論文試験/作文指導  労力的な問題  評価基準が安定しない 自動評価  要約の評価はあるが文そのものの(日本語は)評価はあまりない  e-rater: 重回帰モデルで採点  Jess: 理想小論文を手本とする方式 学習指導要領の指導事項のモデル化  指導事項の分類   「B:書くこと」の「構成」と「記述」   点検:不適切と思われる箇所をマーキング(修正まではやらない)   独自分類:構文/結束構造/修辞・構成/モダリティ/etc.  教師による点検事例の解析  点検モデルの構築 Q: 絶対的な基準として学習指導要領を上げていたけど、そこからモデリング  (独自分類)している時点で「モデル者の主観」が入り込んでる気がする  のだけど、大丈夫なのかな。 会場Q: 作文データを入力して指導要領に合致する/しないのエンジン部分が  最も困難な箇所だと思うが、どう考えているか。 A: 既にあるシステムという点では、文法的な語彙チェックは例がある。  文章の構造構成を採点するというところが大きいが、ここに関しては未検討。 会場Q: (1)児童作文対象だと綺麗じゃない文だらけで、形態素解析だけでも  かなり大変だと思う。(2)自動点検ではなく、本当に間違ってて指摘すると  大変だと思うので、その前に先生が見る時にアシストするシステムを考え、  そこから次に進むと良いのでは。 A: (1)作文点検する前に、助詞誤用等は洗い出した上で、利用を想定している。 会場Q: 提案だが、作文授業で起こりそうな例として、一部の生徒が何も手が  進まない。児童生徒が書いたものがあって初めてシステムが動くようだが、  何も書けない状態の児童をどう支援できるかという点も検討されては。 A: 実際その通りだと思う。 会場Q: 対象が小学生の作文とのことだが、小学生にPC使って作文させると  不感になると思う。実際に書くことが大事では。 A: 仰る通りだと思う。一番良いのは余り綺麗ではない文字でもそれを  認識するシステムがあると嬉しい。 会場Q: 児童の書いた作文を機械が採点する/点検するということで良いのか。  教師をアシストするのがあるべき一つの所かなと思う。あれもこれもやりたい  ではなく、実際の教育現場で機能するのは何か、を考えては。 A: ありがとうございます。 会場Q: 作文教育のe-learning事例だと思うが、e-learningを考えると  何も考えずにデータが蓄積され、それを利用することが有効にはならないか。 A: 個人個人の傾向掴めたら良いなと思う。
A5-2 非日本語母国話者の作成するシステム開発文書を対象とした助詞の誤用判定 (pp.1047-1050)
○大木環美, 大山浩美 (NAIST), 北内啓, 末永高志 (NTT), 松本裕治 (NAIST)
仕様書の品質向上が必要  ツールによる自動化支援  チェックすべき事項の調査   修正前後の文書セット   誤り割合:文法52%、語句26%、、   →助詞の誤用判定 機械学習による誤用判定+素性改善  対象文書:非母国語話者の仕様書  素性生成手順   基本:形態素解析&構文解析+固有表現正規化+助詞前後3単語の原形+係先 4つの改善案  助詞が不要な箇所を判定するための学習事例がない  →全体として悪化しないよう、出現しないであろう箇所のみ学習事例を追加  原型しか使っていないため違いが判定できないことがある  →単語の活用形情報追加  素性列がスパースになりやすい  →単語と品詞を独立の素性として扱う  前後3単語と係先以外の有用な情報が素性に反映されない  →同じかかり先を持つ助詞の追加   実験より全組み合わせ時が最も良い精度を示した Q: 招待講演で話題があった「企業毎のガイドライン」と比較してどちらが  より優先順位が高いのだろう。そもそも開発も海外にやらせるなら仕様書  を日本語で書かせることの意味が良く分からないというのもあるけど。 会場Q: データについて。中国人技術者の書いた仕様書のようだが、清書する  ことがあるのだが、日本語能力試験でN1レベルとN2レベルがあって、  英検1級2級ぐらいの差がある。もともとどのぐらいの日本語入力レベル  の人が書いたかによって変わらないか。 A: そこは調査は行えていない。それなりに幅があるということは聞いている。  他の研究例でもあるが、日本語能力が高い方については余り間違えないので  誤用判定しても「正しいものを誤検出した」という話があるとのこと。  今後検討したい。 会場Q: 前提のエラータイプについて。翻訳の関係で実際に営業でクライアント  と話すと、気持ち的に耐えうるものとそうじゃないものがある。安ければ  良いレベルというのがあるらしい。助詞エラーの中で、クリティカルなものと、  そうでないものがどれぐらいあって、どれぐらい対処できたのか。 A: その問題は起きており、70%ぐらいはなおした方が良いだろうというもの。  30%ぐらいは好みの問題レベル。そこは誰が書き直すかが問題になる。  ただし仕様書としては統一した用い方をした方が良い。仕様書の品質を  高めるという目的のため、誤用として扱っている。
A5-3 翻訳教育向け「みんなの翻訳」 (pp.1051-1054)
○影浦峡 (東大), Thomas, Martin (Leeds大), 阿辺川武 (NII), 内山将夫, 隅田英一郎 (NICT), Hartley, Anthony (Leeds大)
翻訳教育  現場では教員にまかされており、やり取りやログが共有されていない  過去の記録を活用できていない  →やり取りの体系化   「みんなの翻訳」は自立した翻訳者・グループ向け   基本的に自分でやろうとする初心者向け   →よりきめ細かい対応 共同翻訳プロジェクト →関与する要素とプロセスの定義を洗い出し  複数の人が関わり、比較的複雑な会話セッション   テキストエンティティ:文書集合/個別文書/テキストスパン   参加者の役割:翻訳者/修正訳者/レビュア/アドバイザ/ターミノロジスト   やりとりのタイプ(仮):要求/通知/説明/解決/激励/感謝  やり取りを作業プロセスに位置づける   文書集合レベルを巡るやり取り   個別文書レベルについてのやり取り   テキストスパンをめぐるやりとり   →まだバランスが良く分からず    教育目的としてはある程度統制した方が良いが、    統制し過ぎても教育効果が薄れる等、要検討が必要。 翻訳教育向け「みんなの翻訳」は2011年7月に公開予定 Q: ユーザビリティとかではなく、統制バランスが教育効果にも影響を及ぼす  というのは考えたことが無かった点。うまく評価する方法があるのか、  そもそも利用者のレベルによっても異なりそう等現場でカスタマイズ  せざるを得ない部分も少なくないのかな。 会場Q: (1)ブロックで翻訳の修正等議論が行われいるようだが、議論結果を  共有する仕組みはあるのか。(2)作業者の問題で、修正翻訳をする人/チェックを  する人を必ず用意する必要があるようだが、対象言語力が無いと人員確保の  問題が無いか。 A: (1)修正カテゴリタイプでコントロールした上で、インスタンスをまとめる。  それ以降については言語処理的なメカニズムでフリー記述・討論を  まとめられると、半分自動化できることを期待している。  (2)リバイザは原文を見て修正する。レビュワーは翻訳された対象文だけを  みて修正する。翻訳教育の現場では必ず全ての役割と異なる人がやる必要  はない。関わった方が教育効果が高いというのもある。役割分だけ異なる人を  準備する必要は無い。日本とは異なる事情として、欧州ではかなり学生数が  多いためそこは問題になり難い。 会場Q: このシステムは、学校に配布して教室の中で、その場で使う?オンライン? A: その場に居て使うシステムとして設計している。 会場用Q: ペアプログラミングというのがあるが、それを如何にシステムで  補助するかという話がある。 A: 参考にしたいと思う。
A5-4 Stativity判定に基づいた時制誤り検出 (pp.1055-1058)
○永田亮 (甲南大), Vera Sheinman (教育測定研究所)
シンプルな方法:コーパスから現在/過去/未来を判定する分類器を構築  困難  →Statiity判定する分類器を構築 発音してみよう  I read the book.→過去を示す表層情報は無いのにレッドと発音  何かが隠れているのでは?  →Stativity: 動詞の分類   動作動詞/状態動詞   動作動詞:現在の動作に対して単純現在を使用することは制限を受ける  単純現在の動詞抽出   動作動詞なら時制誤り   →どうやってStativity情報得るか?   →単純なif-thenで決めうちして良いのか? コーパス→学習データを人手で作成
 Stativity判定を行うME分類器   動詞毎に分類器を作成  現在形で使用できる動作動詞   習慣的動作/一般的真理/未来の確定した予定/「時」「条件」を表す副詞節中  →先行研究と比較して検出率&検出精度共に高い(6割弱) Q: 実は例文で「リードとは読まない」というのが納得できていなかったのだけど、  制限を受けるだけで可能性がゼロだという話ではないということでやや納得。  ただ、その例外規定がこれで十分なのかが良く分からず。実際問題としては、  結果見る限りは「これで多数は問題無い」ということらしいけど、  まだ検証例が少ないだけじゃないのかな。 会場Q: Stativityという概念が効果があるというのは直感的にも分かる気が  するが、分類問題では置き換えただけになっていないか。うまくいかな  かった方は3値分類でやっている。 A: 1分類としてやればできるという可能性もあるが、まだやれていない。 会場Q: 時制誤りについて、副文で時制一致がいる例というのはどういうのがあるのか。 A: 主となる動詞と副文となる動詞は、そんなに強い制約ではないと考えている。  ただ、よりうまくなるケースとしては使えると思う。 会場Q: Stativityを現在/過去に置き換えると同じ問題になるような気がしている。  前後3単語でME決定していたが、人間がやるとどのぐらいなのか。 A: 一般の新聞だと分からないが、教育用問題では典型的な用法が多く、  それについては迷うことは無い。分からなくて除外したものもいくつかある。  アノテーションは一人でやってしまった。 会場Q: 書き手に何かフィードバックをかけることは可能なのか。 A: どこが違うよと示すだけでも役立つと思う。具体的なところはこれから考えたい。
A5-6 最大クリーク探索に基づく特許検索履歴の統合 (pp.1059-1062)
○乾孝司 (筑波大), 難波英嗣 (広島市立大), 橋本泰一, 藤井敦, 岩山真 (東工大), 橋田浩一 (産総研)
特許に関連した先行技術調査 先行技術調査における集合知の循環  →先行技術調査の生産性を持続的に高める   注釈や検索履歴を循環させて利用するために辞書作成    今回は履歴&検索質問からどう辞書を作るかについて 入力支援:OR質問 辞書構築:関連語辞書 検索はAND/ORを組み合わせるが、OR質問への入力を支援  例:(半角Web+全角Web+ウェブ) * サービス    (A+B+C)*(D+E)    頑張ってやる部分、連想をサポート  シソーラスでは概念粒度の違い、良く分からないものがあり、サポートしづらい  →蓄積される履歴を利用 検索意図により「関連」の意味合いが異なる  観点に基づく構造化   例:観点1(認証:画像、指紋、)、観点2(音:音楽、サウンド、、) IPCCで行われている方法
 OR部分の共通性に基づく統合・登録処理を繰り返すことで関連語を増やす  履歴と共通部分が多いなら加える  どの検索者が入力した履歴かを問わないため、ノイズになる可能性。  →さらに他検索履歴も参照し、エビデンスを確保(履歴中でOR結合している場合だけ登録)。   IPCC法はincremental、エビデンス利用だとbatch処理   →履歴情報を単語グラフ表現+最大クリーク探索(極大クリーク列挙) Q: データをグラフ化→最大クリーク探索という問題への落とし込み方が面白い。  観点をどう求めるかは良く分からなかった(クリーク=観点?)けど、  条件緩めることでいろんなことに応用が利きそう。 会場Q: クリークを使った利点を教えて欲しい。普通なら確率とかでも良さそうだが。 A: 元々の問題設定としては、クリークを見つけないと制約を満たせない。  確率的なやり方もあるかもしれないが、今回は見つけていない。 会場Q: 完全クリークのみ? A: 擬似的なクリークは取っていない。ただし、若干観点を分け過ぎている  ようにも見えるので、制約が強すぎるかもしれない。
A5-7 テレビスポーツ番組におけるリアルタイム字幕の特徴 (pp.1063-1066)
○福島孝博 (追手門学院大)
テレビ番組の字幕  Open vs. Closed Captions  生でない番組への字幕:ほとんど付与  総務省方針:2017年度までに生番組まで拡大  典型例としてスポーツ番組   サッカー:4名登場(実況アナウンサー、解説者2名、ピッチレポーター)   大相撲:3名登場(館内アナウンス、呼び出しはもともと字幕対象外)  字幕   1,2行30字程度   話者を色分けする傾向 固有名詞  基本的に省略せずフルネーム  サッカー:海外選手は文字数多いためか、字幕として生成されないことが多い  大相撲:字幕者にもよるが、発話以上に名前が生成されることが多い 発話速度  サッカー:発話が早い、字幕が出ていない時間帯あり(追いついていない)  大相撲:比較的ゆっくり、一部で要約率1.0を越える(リスピーク方式) 字幕の問題点「泣き別れ」  「青いユ」「ニホーム」   サッカーにて8回、大相撲で0回 今後  情報保証のためのテレビ字幕のあり方を明らかにする オーストラリアの例  ノーマルタイプとヒアリングタイプを選択できる(差は良く分からなかったが) Q: 米国だとかなりがっちりリアルタイムでもタイプしまくられているよう  だけど、そっちでは情報保証をどう考えているのかな。あと、そもそも  文字だとなかなか理解できないケースもあるらしいので、よりリッチな  サポート方法というのはまだまだ考える余地が数多く手つかずになって  いるのかもしれない。 会場Q: ワンセグで字幕見てると納得いく話で、興味があるのは聴覚障害者  への要約費。健常者と一緒に授業受けたいとか。TVに絞っている理由や、  他への応用について何かあれば。 A: 聴覚障害者への情報保証の話をするといろいろあるが、TVならTVでの制限  などを考えていく必要がある。どういう字幕ができるかという点で調べている  段階。情報保証としての字幕であるべきで、人権問題にも関わってくる  デジタル時代の対応問題。リアルタイム番組におけるあるべき姿を模索している。 会場Q: 現状のTV字幕で遅延時間については何か調査結果があるか。 A: TV局に聞くと良いと思うが、ある程度以上遅れてはいけないという  ガイドラインがある。サッカーでは完全に遅れている。ある程度の時間で  区切って出している。

NLP2011, 本会議2日目終了(セッションB2: Twitterと言語処理)

水曜日, 3月 9th, 2011

NLP2011、本会議2日目(一般講演セッション1つ+招待講演1つ+特別講演1つ+ポスターセッション1つ)。

目標だけでなくアプローチも手段も多岐にわたる話が多くて脳みそが崩壊しそう。ブログにまとめた分だけでも後でKJ法するだけでもかなりの知識が必要になりそうだ。まだ大会途中だけど、やっぱり参加して良かった。

ということで、以下、本会議2日目のメモです。

目次
B2: Twitterと言語処理
 ・Wikipediaのカテゴリ階層を利用したTwitterユーザのカテゴライズ手法
 ・マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案
 ・Twitterからの個人の行動に起因するトラブル予測システムの試作
 ・マイクロブログサービスの返信行動に着目した投稿及びユーザの分類
 ・Twitterユーザの属性判別によるスポーツ映像の自動要約
 ・Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出
 ・パネル討論: 各パネリストによるショートプレゼン+討論お題+会場質疑応答という構成
  ・Twitter連携サービスの変遷: 横田 真俊(Twitter解説書著者)
  ・TwitterのStreaming APIを使ってネタ集め: 辻村 浩(沖電気工業株式会社)
  ・ソーシャルセンサーとしてのTwitter: 榊 剛史(東京大学)
  ・自然言語処理屋から見たTwitter: 岡野原 大輔(PFI)
  ・「ツイちぇき!」開発における取り組みと課題: 大角 知孝((NTTコミュニケーションズ株式会社)
  ・お題1:Twitterは他の言語処理と比べて何が違うのか。
  ・お題2:Twitter情報活用したサービスは色々ある。それらにおける課題や注意点。
  ・お題3:今後期待されるようなサービス/技術。どういうアプローチが面白そうか。
  ・会場質疑応答
招待講演2: 「実務翻訳の現状と未来」講演者 田中千鶴香 氏(日本翻訳連盟理事・日本語標準スタイルガイド検討委員長)
特別講演: 「表現から意味へ:言語処理技術と言語の科学」講演者 辻井潤一 氏(東京大学大学院,マンチェスター大学教授,英国・国立テキストマイニングセンター 研究担当ディレクター)
P3: ポスター(3)





B2:テーマセッション4: Twitterと言語処理

B2-1 Wikipediaのカテゴリ階層を利用したTwitterユーザのカテゴライズ手法 (pp.448-451)
○放地宏佳, 鶴田雅信, 酒井浩之, 増山繁 (豊橋技科大)
ユーザ推薦のために公式用意されたカテゴリ数は8種類。 母数と比較してあまりにも少ない→客観的な判断に基づいたユーザ分類 発現内容に基づくカテゴライズ  新語が多く形態素解析困難  既存シソーラスでもカテゴライズ困難  →Wikipedia利用してカテゴライズ 特徴誤抽出のための前処理  ユーザ名除去  RT,QT以降の文除去  ハッシュタグ除去  文字表記法法の統一「は”」→「ば」 Q: 違和感を感じたのはツイート分類かユーザ分類かが混ざっているのか。  人自体が多面性持ってるし、移り変わるものでもあるし。ツイート分類  して時系列的にユーザ分類するのが良いのかしら。 会場Q: カテゴリを辿って近いパスといったが、共通カテゴリへの最小パス? A: 特徴語から近い方。 会場Q: 閾値から2以上というのは2未満の誤り? A: 最上位カテゴリと特徴語があり、数式では最上位カテゴリからの値。 会場Q: Wikipedia中リンクのアンカー名とタイトルとの関係を使うと  より頑健な抽出ができると思う。 会場Q: ユーザ20名はどうやって選んだ? A: Streaming API から取得した日本人からランダム抽出。 会場Q: ユーザによってカテゴリのしやすさもあると思う。 会場Q: 複数のことに興味があってまたがったツイートをしている人も  いると思う。特徴語から共通カテゴリを取るとかなり上位のカテゴリ  が取られてしまい変なことにならないか。 A: 1ユーザについて全部をまとめて共通カテゴリを作るわけではなく、  複数カテゴリが付与される。閾値調整であまり上位過ぎないように調整する。
B2-2 マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案 (pp.452-455)
○向井友宏, 黒澤義明, 目良和也, 竹澤寿幸 (広島市立大)
Twitter「リスト」の名前からユーザの属性を判別&特徴誤抽出。 必ずしも嗜好情報を表しているとは言えない。 「お気に入り」は嗜好情報含むが、あまり利用されていない。 →「リツイート」を利用。  全ツイート使うよりもクラスタリング結果は良質に見える。 リツイート中の名詞を利用。  表記揺れ→Wikipediaカテゴリ情報  意外性のある推薦 バースト+極性評価(ネガティブ時は推薦しない)  仮定:推薦が受け入れられやすいタイミング Q: favtterとかある程度整理されたのを後から見るケースも増えてきてる  ので、リアルタイム性が必ずしも高いとはいえないのかも。 Q: (そもそもツイートに反応するボット的な推薦は受け入れられるのだ  ろうか。ボット的な推薦なのかは分からないけど) 会場Q: ネガポジ判定に「ヒット」といった言葉で決まってしまうとのこと  だが、野球でも攻守によって異なる。その対応はできるのか。 A: ツイートの流れを追う事によって判別できると思う。 会場Q: (1)リツイートを対象にした時と全ツイートを対象にしたときとで  どのような差が見られたのか。リツイートは情報が高かったものを広める  役割で、嗜好を表しているというのも何となく分かるが、クラスタリング  されているか否かと嗜好を表しているか否かは一致していないように思う。  (2)タイミングで高揚している時に出すというのは面白いともうが、  実際やってみてどうだったのか。 A: (1)ユーザ毎にプロファイリングした結果、全ツイートを用いると特徴的  な語が取得し難い。  (2)タイミングについては、評価実験はまだ行えていない。 会場Q: クラスタリングの評価について、直感的にやったのか、  客観的にやられたのか。 A: 成功している/いないについては直感。具体的な尺度は無い。 会場Q: クラスタリングすることで意外性のある情報推薦ができると考えた理由は? A: 異なるユーザの特徴語に共通点が多く、異なる特徴語があり、  カテゴリ的に上位で共通していれば意外性があると考えた。
B2-3 Twitterからの個人の行動に起因するトラブル予測システムの試作 (pp.456-459)
○隅田飛鳥, 服部元, 小野智弘 (KDDI)
ユーザのログから特定トラブルが発生する可能性が高いか否かを判定したい。 例:健康管理システム(肥満) 個人の行為・状態の積み重ねを原因とするトラブルに限定  地震とかサーバダウンは対象外  因果関係を用いた予測  時間関係も加味して要因を認識する必要がある 原因候補の抽出+グルーピング  名詞の上位下位関係、動詞の含意関係 時間情報を考慮してトラブル発生しやすさを機械学習してスコア付け  素性:単語そのもの+周期性+原因候補の書き込み時刻+周期の変化 Q: メタボとか複数要因(食事、運動等)が絡むようなのは、  今の所考慮しないということか。 会場Q: 評価について。「風邪」から「風邪」は分かりやすいが、  「風邪引きそう」はトラブルとしては除外? A: 除外。 会場Q: ニーズについて。ユーザが使う時に嬉しいのかどうか。  どう説明するのか、役に立つと示すのか。 A: 実証実験を行いたいと思うが、まだそこに至っていない。  精度高くしないと実用には厳しい。 会場Q: 表現語の選択はどうやっている? A: 「風邪」を必ず含む後にしているので、限定し過ぎているかもしれない。 会場Q: 「太った」というのが「トラブル表現」とのことだが、  太るというのは急激に発生するわけではなく徐々になる。  トラブルとしてはどう書くのか。 A: 例としては「体重計のったら太っちゃった」とか書かれる。  それを「太る→太った」と表現した。 会場Q: 警告をすると言ったことを考えている? この時に太ることを  覚悟していることもあると思うが、どう考えているか。 A: トラブルの選択については考える必要があると思う。
B2-4 マイクロブログサービスの返信行動に着目した投稿及びユーザの分類 (pp.460-463)
○黒澤義明, 竹澤寿幸 (広島市立大)
フォローしやすい→増え過ぎて大変→要選択  親密度(?)を返信行動「投稿の繋がり」で分類  名詞だけでは無関係→Wikipedia辞書でカテゴリ同一 カテゴリ化  Wikipediaでカテゴリ情報抽出(2段階) 双方への配分  ペット:3×α (3倍して重み調整)  ツイッター文長自体が短いので、複合して情報量upを期待 クラスタリング  pLSA, SOM Q: ツイート文長が短くて情報量少ないという点を「カテゴリ名」を  「3倍+重み調整」するというのが相対的のどのぐらい効果が出そう  なのか良く分からない Q: TL検索して垣根を越えて人を見つけやすくなってるだけでも十分  だとも思うけど、コミュニティ単位での検出という意味ではそれが  嬉しい場面もありそう。ハッシュタグもそうだし。 会場Q: クラスタリングで、学部が一致すべきかどうかが良く分からない。 A: 課題でも述べたが、学年の進行に伴い変わるものだし、学部の中でも  仲が良いとは限らない。もう少し細かいクラスタでやりたいが、  細かい情報が載せられてないためアンバランスな面がある。 会場Q: セレンディピティという話もあるようだが、最終的な目的は? A: 全ツイートを見るわけにはいかないので、興味のあるツイートを提示  したい。興味通りの所を提案するだけだと飽きるので、新たな友達を  発見するツール等を考えている。 会場Q: 返信内容に含まれる単語を使ってクラスタリングしているよう  だが、単純に考えると返信し合っている人は同じくラスタに入りやすい。  それだけだとフォロー関係使っても同じものを得られそう。それ以上の  ものが取れているのかどうか。 A: 直接比較はできていないが、フォロー関係については別途やっており  合体/比較していきたい。 会場Q: 評価の方法として、ツイッターで作られるコミュニティと  現実生活コミュニティが同じであると仮定していると考えている? A: その通り。 会場Q: それをネットで発見する意義は? A: 友達作りが下手という話も良くきくようになった。  実際あるコミュニティを知らない場合に、チャンスが広がると考えている。
B2-5 Twitterユーザの属性判別によるスポーツ映像の自動要約 (pp.464-467)
○小林尊志, 野田雅文, 出口大輔 (名大), 高橋友和 (岐阜聖徳学園大), 井手一郎, 村瀬洋 (名大)
膨大な放送映像を効率的に閲覧する技術が必要 視聴者の視点による重要なシーン検出  盛り上がり(歓声/実況チャット)を利用 実況書き込み  属性評価辞書で投稿者の属性判別   「どちらのチームを応援する文脈に現れやすいか」   チームを応援するハッシュタグ  要約映像の生成   同一チームを応援する投稿者の書き込みかr亜盛り上がり度を算出 Q: バイアスを気にするというよりそれが気にならないぐらいに  高バイアスしちゃうよ!というように見える。 Q: ツイートタイミングと映像タイミングとでの時間差は  何かしら一意にアライメントできるのかしら。 会場Q: 中日ファンの例を見たが、ロッテファンではどうなるのか、違いは? A: 試合内容と展開によって大きく異なる。この例では大差で負ける。  この場合、買ってる方は「相手の得点」でも盛り上がる。 会場Q: 巨人/横浜だった場合、巨人ファンが多すぎるといったことがある  と思うが、問題にならないか。 A: 単語数を一致するように設定していることで調整できた。 会場Q: 2chの実況版とかあるが、それを利用することはできないか。 A: 匿名性があり、どのユーザがどの書き込みをしたかというのが得難い。  Twitterに特価した手法。 会場Q: (1)ユーザの立場が分かるというのは面白い。偏りがあるというのは  良いが、日本と別の国となると片方の立場で映像出さないといけない、  majorityになるような場合にどうなるのか。(2)評価について、立場を  評価せずにTwitter盛り上がりだけを見た時にどうだったか。 A: (1)明らかに偏りがありすぎる場合には、基本的には属性判別困難。  単語に隔たりが出てくると可能性はあると思う。  (2)実際の書き込み件数だけでいくのと比較すると、2シーンはとれた。  他は立場を考慮しないと取れなかった。
B2-6 Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出 (pp.468-471)
○鈴木啓太, 新美礼彦 (未来大)
最新の話題を収集し続けるのは困難→話題抽出 Googleトレンド/kizasi.jp  何故話題になっているのか、どう使われているのかは分からない。  →話題を類推できる情報を提示したい 類推ワード  トピックワード:相関ルール抽出で生成   結論部にトピックワードを持つルール  関連文書:類推ワードと集めた文書から生成 Q: 昨日のポスターセッションであった「ページに何が書かれているかを  示す記述用語」みたいな話かしら。 会場Q: 相関ルール抽出で語彙を増やしたとのことだが、類義語とか  他の方法とは違う効果が得られるのか。この方法に着目した理由は。 A: 相関ルール抽出しか知らなかったというのが大きく、  他の手法と比べてというのは無い。 会場Q: 具体的にどういう目的でやっている? A: 類推ワードと関連文書を抽出し、Twitter呟きを使うことで日々  生まれている単語/略語を類推できるような文書を抽出すること。 会場Q: kizasiみたいなもの? A: その通り。
B2: テーマセッション4: Twitterと言語処理: パネル討論 最新情報や開発ノウハウについて。 ハッシュタグ: #twitterconf  togetter: 言語処理学会第17回年次大会-パネル討論[B2-6]Twitter情報を活用したサービスの現状と課題 Twitter研究会  Twitter, Ust, ATND 以下、  ・パネリストによる数分プレゼン  ・討論お題  ・会場質疑応答 の3部構成。
>横田 真俊(Twitter解説書著者) @Wslash Twitter連携サービスの変遷  BOTの時代   今日は何の日?   並の人間よりもBOTの方がフォローされる  ランキングの時代   ふぁぼったー、トゥギャッター、バズッター  Daily meの時代   デイリー enews   paper.li、Flipboardなど
>辻村 浩(沖電気工業株式会社) @tsupo TwitterのStreaming APIを使ってネタ集め  public_timeline, private_timeline 取り扱いに注意が必要   原則として public 使おう  ログ保存機能のあるTwitterクライアントでひたすら収集   Tween, Shiro, Chirrup,,,   Twitter IRC gateway(TIG)経由でIRCクライアントの利用も  REST APIには時間当りの発行回数制限あり   ホワイトリスト登録申請はなくなる方向  Streaming API   firehose: Twitter社と契約必要(法人のみ)   sample: 契約不要(10~15%に間引きされたもの)   filter: 契約次第。検索条件に合致するもののみ取得したいとき。  参考: FaceBookの場合   public_timeline に相当するものは無い   基本公開された情報でもないので取り扱い注意
>榊 剛史(東京大学) @tksakaki ソーシャルセンサーとしてのTwitter  Twitterにおける「今」と「どこ」の重要性  実社会を観測するソーシャルセンサー   トレンド・ニュース分析    ツイちぇき!、Buzztter、、   評判分析    クチコミ係長、TweetFeel、、、     情報伝搬分析  ユーザー影響力分析  自然現象等の観測   カゼミル   (終了)みんなの花粉症なう!β  自然現象の抽出   地震検出、虹検出、渋滞・交通情報抽出  イベント検出の仕組み   地震の場合:特定キーワードを含むツイート収集分析+位置情報   ただし位置情報付きツイートは日本全体で5%ぐらい。   ユーザプロフィールや、ツイート中の位置情報単語も使う。  既存ツールでは十分な解析が難しい   交互的なツイート、省略表現、略語表現  実用可能な情報抽出を行っているプロジェクトは少ない  新しい研究・ビジネスとしての可能性
>岡野原 大輔(PFI) @hillbig 自然言語処理屋から見たTwitter  Twitterをコーパスとして活用   対話、談話情報が抽出できる   周辺情報が豊富   量が豊富  高精度な固有表現抽出が必須   その後の精度問題は大抵キーワード抽出の精度が影響   tweet特有の表現を真面目に処理  スケーラブルな処理速度が必要  自然言語処理の基本的な処理が重要   文が短く、省略が多い   BOWがうまく動かない場合も多く、真面目な解析が重要!   ゼロ照応解析(「俺は良いと思う @RT:….)   共参照解析(「AとBなら私は後者」)   tweetをまたがるトピック抽出(談話解析)
>大角 知孝((NTTコミュニケーションズ株式会社) @elrana ツイちぇき!」開発における取り組みと課題  今、この瞬間に注目されている話題をリアルタイムに分かりやすくお知らせするサイト。  課題:ツイート取得   安定して大量のツイートが必要   Search API:断続的に取れないことがあったりする    APIは動いているが更新されない   APIが不安定になることを想定した実装   並列して異なるAPIを利用    Streaming API (gardenhose) + Search API (search.twitter.com)   バイアス    場所指定 Search APIとStreaming APIでのツイート文字数比較    場所付きの人はしっかり書いてる傾向   Buzz Finder Next(仮称)
>お題1:Twitterは他の言語処理と比べて何が違うのか。 ・ネット特有の言葉が多い(wwwとかも) ・Twitterは一旦投稿したものを削除することはできるが、編集はできない。  揚げ足取り等に発展しやすい要因の一つ。 ・即時性。極めてリアルタイムに近い。  電車が止まった時にTwitter検索した人挙手→結構いる ・日本語と英語とでも使い方が大きく異なる。  英語だと単文。日本語だと議論にもなりやすい。 ・現実世界との繋がり、コメントしやすさ。  世の中で起きていることに対してコメントしている。これを取得しやすい。
>お題2:Twitter情報活用したサービスは色々ある。それらにおける課題や注意点。 ・安定したクローラーを書くのが大変。  普通にAPIで集めるのだと量が足りない。 ・Twitterや検索の仕様が結構変わる。  言語指定の有無で結果が異なるとか。 ・データの量が多い。後ろ側で解析する処理が結構しんどい。  裏側の作りをしっかりしないとサービス提供上の課題。 ・Twitter流れてる情報はpublicだけではないので扱いに注意。 ・Twitterを認証に使ったサービスが増えてきているが、今後トラブルが出てくるのでは。
>お題3:今後期待されるようなサービス/技術。どういうアプローチが面白そうか。 ・自分の個人情報に着目して補助するサービスが増えると思う。  Facebookとの使い分けにも興味あり。 ・発表にあったトラブル予測のようなものに期待。  もっと面白いBOTを! ・作ったサービスが期待されるように。  APIがどんどん更新されて、メタ情報が増えてきている。それを使おう。 ・Twitterだけでなく4sqもあるが、空間を有効に利用するサービス。 ・ユーザがどういう属性持っていて、どういう話題が受けているかを分かると
 ビジネス的に有効。どう仕掛けたらどう情報が伝搬するかというモデルは  あるが、それを使った実サービスが出てくるのでは。 Q: Twitterに限らず「情報膨大→要約→嗜好加味した要約」という目的や  手段の推移は分かるが、これらを「アンケート評価」よりももう少し  ベンチマーク的な評価をする場をセッティングすることはできないか。  GroupLensみたいに。 会場質疑応答 会場Q: サービス設計する上でリアルタイムに処理するのか、バッチタイムに  するのか。システム設計時点でどちらかにすると、もう片方を考慮  できない。両方を上手くサービス化するための設計は無いものか。 A: リアルタイムの場合でもそのサービスが要求されるのは数分とか10分等、  サービス次第で異なる。小さいバッチシステムと大きいバッチシステムを  分けて用意するといったことが考えられる。 A: リアルタイム/バッチ処理かといっても、取りあえず取りこぼしがあると  クローリング問題。そこをしっかり作って、足りない部分をバッチで対応。 会場Q: 公式報道前にTwitterに流れる情報について。利用にあたり気をつけている  点があれば。 A: 一番良いのは、上司をフォローしてフォローされること。ある程度見られ  ているという意識があれば良いのでは。 A: 自分のツイートについては自分の責任。他人のことについてのツイートに  ついては慎重に投稿するようにしている。 A: いろんな人が見ているので、見られ方次第でネガティブに取られることも  ある。できるだけポジティブに取られるよう書いている。 会場Q: private/publicがあるとのことだが、tweetには著作権があるのか。分析して  辞書を作った場合、販売可能か。コーパス公開する際に「やめろ」といった  ことが無いか。今後どう考えているか。 A: 一応publicになっているので検索エンジンと同じ立場。グレーゾーン。  Twitterからアクセス止められたら終わりなので、上手くやる必要はあると思う。 A: Ustreamで流した時にそのツイートを表示したら大きな問題になった。  ユーザ名はぼかして表示するようにしている。 A: グレーゾーン。それがいろんなAPI公開として広がっている部分もある。  ある程度の許容がもたれているという状況では。
招待講演2: 「実務翻訳の現状と未来」講演者 田中千鶴香 氏(日本翻訳連盟理事・日本語標準スタイルガイド検討委員長) 課題  コスト削減(プロセス自動化等)  グローバル化(関連データの標準化)  ベンダーロックインの回避(Tradosの時代、オープンソース)
 支援技術  Computer Aided Translation: 翻訳メモリーソフトウェア、用語管理ツール等  Contents Management System: トピック単位で構造化管理、DITA。  Translation Management System: プロセス自動化、言語資源一元化。 翻訳プロセス全体の自動化  機械翻訳は自動化された翻訳プロセスの一部  対象ファイル→準備→XLIFF等→翻訳支援ツール→XIFF等→後処理→出力   用語データTBX、翻訳メモリーTMX   機械翻訳は翻訳支援ツールの一つ。 実務翻訳関連オープンスタンダード  翻訳メモリー   TMX(LISAの規格), XLIFF(OASIS), SRX(LISA), ITS(W3C)  用語データ   TBX(LISA), UTX(AAMT) 言語資源の活用  TAUS(Translation Automation User Society)  TDA(TAUS Data Association)   2011年3月より会員以外も翻訳メモリーのup/download可能に。   *uploadは著作権クリアしたもののみ許可。   関連URL: TAUS Search    入力文「翻訳機能」→「翻訳 機能」じゃないとうまくいかない。    何かあればTAUSへ。 機械翻訳+ポストエディット  MTと人手による後編集   機械翻訳の品質に応じてではなく、   目標品質に応じてエディット作業を選択。   目標品質毎のガイドラインはTAUSが提示している。  MTのみ/MT+社内ポストエディット/MT+社外ポストエディット(ライト/フル) 実務翻訳は目的・機能を重視  コストとスピードに応じて設定   正しい表記/自然な言葉遣い/読みやすさ/良い翻訳 和訳時の日本語表記の問題  文字種が多い  「どのように訳すか」と同時に「どのように表記するか」が問題  発注者毎に用語や表記仕様が異なり標準化されていない(特にIT業界)   コンピューター?コンピュータ?   ローカルエリアネットワーク?   ローカル・エリア・ネットワーク?ローカル エリア ネットワーク?   グラフィカル?グラフィック? 日本語表記への取り組み  SINAPS Forum   日本語表記スタイルガイドを整理    e.g, 半角英数字の前後にスペースの有無、長音の有無、、 表記使用の不統一:まとめ  百害あって一利無し   ガイドラインは機密文書   翻訳品質基準の一つ   優良企業ほど企業文化を尊重 提案  表記統一ツールの提案   対象ファイルから用語を抽出   抽出した用語の標準表記を定義ファイルに従って生成   抽出した用語を生成した標準表記の用語に置換   元のファイルに書き戻す   ファイル形式対応  問題点   辞書登録時のミスが永続化   新語はどんどん増えていく 翻訳の本質は不変  言葉・質に対するこだわり  「間」の翻訳 Q: 同じ文であったとしても、文脈によって訳仕方が不適切な翻訳結果が  あると思うが、どのように選択/支援されるべきか? 会場Q: 表記揺れを無くしていくという提案があったが、全世界に強制する  というものではないという認識で良いか。言葉の表記揺れにも  コントロール・ランゲージに通じる部分がありそうだが、どう考えているか。 A: 表記ガイドラインに従って翻訳せざるを得ないのが現状で、大変なストレス。  これを何年も続けているとタマラナイ。自分は自由に書いて、後はツールを  使うことで企業毎のガイドラインに従う形に変換できるようになれば、  とても嬉しい。 会場Q: それぞれが自由に書いた文を機械で変換するという話について、  語だけじゃなく、構文的な部分もできるんじゃないかと思う。 A: そこまでできるのであれば、ニーズもあるはずなので嬉しいです。 会場Q: 開発する場合お金は出るのか。 A: 検討させて頂きます。大きなビジネスチャンスでもあると思う。 会場Q: 翻訳以外にも社内文書スタイルに統一したいというのが恐らく企業ニーズ。  そういう企業の蓄積したデータが大量にあれば、ここに参加している人は  そこに統一するというツールはできると思う。ただし精度の問題はあって、  100%は困難で、いくら貰えるならどこまで精度を高める努力をする、  という話に落ち着くと思う。ある程度できたらリファインするというのが  現実的だと思う。 A: 実務翻訳の世界では、扱ってるファイル形式が沢山。こういったものも  扱えるようになると嬉しい。逆に言うとそこが条件でもある。そこが使えないと  使い物にならない。抜き出汁と書き出しを人間がやらざるを得ないと、  物足りず、値段を付け難い。 会場Q: (1)日本語と英語のペアを見ると機械翻訳でも難しいペア。翻訳のコスト  として違いがあるのか。(2)日本人は言葉に対する思い入れがあるという話が  あったが、表記の揺れは重要かもしれないが読む側にとってはどうでも良い。  そこまで求めているかというのはオーバースペックではないか。スペックを  下げて行く運動があれば、無駄なお金を減らせるのではないか。 A: (1)コストについては、求める品質との兼ね合いによる。言語の違い、  場所の違いによっても異なり、簡単には言えない。(2)オーバースペックでは  ないかという点については、その通りだと思う。ユーザは特に考えていない。  ただし、社内スタイルを変更するためのコスト、揺らぎを許容するための  コストが大変。 企業Q: ツールを利用する際に、翻訳のように100%マッチしたら問題無いと  思うが、そうじゃないケースについて。マッチ度合いが少し減る場合、  自分が訳した方が早いのか。 A: コストの問題でもあるが、がっかり感。
特別講演: 「表現から意味へ:言語処理技術と言語の科学」講演者 辻井潤一 氏(東京大学大学院,マンチェスター大学教授,英国・国立テキストマイニングセンター 研究担当ディレクター) 計算言語学と言語処理 正しいアプローチ?  テキストに対して野心的な目標   T-H pairs/Frameの認識/意味役割の付与   特徴抽出器   →うまくいかない場合にはここを改善したり、テキスト増やしたり。    チューニングした結果はドメインが変わると知見が活かせない。    →分野適応/モジュラリティ 考えたいこと  ・テキスト表象と「意味」や「解釈」との間には大きなギャップがある。   目標が恣意的あるいは過度に野心的に設定されていないか。  ・人間の言語処理アーキテクチャは複雑。   単一の機械学習器だけでは不十分では?  ・巨大データへと向かう方向とは別の研究方向もあるのでは? 工学と科学  SRL, Textual Entailment   句構造、依存構造、意味ラベル    観測不可なものがアノテートされる。NLP応用上嬉しいから付けているだけ。    理論的正当化なく試行錯誤的に行われる。    疑似科学的な定量的評価。    →理論的により設定+理論からの吟味+正当化が必要では。   言語的な表現レベル    深層と表層    多層的な理論 vs. 炭層的な理論   説明すべきデータと説明すべきでないデータ   生得説と連合説    言語処理に特化した計算アーキテクチャ?   量には還元できない特異な構造   質/効率/モジュラリティ/適応可能性への寄与 The modularity of Mind/精神のモジュール形式  批判されるべき箇所は多分にあるが、分かりやすい形を提示。   言語処理のある部分は周辺系にあり、情報遮断性がある。   中央系は非限定的な情報参照があり、科学の対象としては研究できない。   →強すぎる主張ではあるが、ごった混ぜにしない点は有益では。 文法理論に基づく深い文解析  制約文法の研究CL:可能な解の集合(句構造木+述語-項構造)  文解析器の研究NLP:可能な解の確率分布   両者を切り離して見つけることを研究し過ぎていて、   どういう解があり得るか、どういう制約を満たしているか、   といった側面がお座なりでは。統合されるべきだろう。  意味に基づく知的な文検索システム MEDIE 何が計算できるかをきちんと定義する必要があるだろう。 どういう構造を計算したら良いのかを決める。 文法理論  初期の変形生成文法:深層構造で表層の違いを解消したい。(表現と計算の混同)  生成意味論:深層過ぎる。(野心的過ぎて奇妙な規則/雑多な系)  解釈意味論:あまり表層と変わっていない。(宣言的な関係記述)   →表層/深層を宣言的に記述する HPSG(主辞駆動句構造文法)  辞書として記述   e.g, love: 動詞、主語1つ、目的語1つ  文法規則   テンプレートとして記述    ユニフィケーション    情報伝搬    →辞書項目に、統語構造と意味構造の写像関係が規定される  複雑な統語構造から意味への写像 深い解析器に関する二つの見方  (1)入力→機械学習器→出力   入力は様々な特徴抽出により雑多に生成   出力に、フレーム/フレーム要素の認識(FrameNet)は野心的すぎる。   出力に、意味ラベル(PropBank)もまあだ野心的。  (2)文→深い文解析器→HPSGによる派生過程→述語-項構造(深い統語構造)  各々タスク設定が異なる。  (2)では比較的浅い所に「述語-項構造」が来る。 広いカバーレッジの文法  文法開発と評価のための木構造バンク   派生構造にある確率分布も計算できるので、最も適切な構造を選択する問題に。  文解析の難しさ   カタラン数   優先解釈の選択    比較的もっともらしい解釈をうまく選んでくれる確率モデルが必要    確率HPSG 高い効率の文解析 実用上は速くないと使えない  ユニフィケーションを速くするだけではダメで、  ユニフィケーションしない(ユニフィケーションする回数を減らす)、  まで考える必要あり。  →探索問題   CFGフィルタリング、高効率な探索手法、スーパータギング   ビームサーチ    ビーム幅を狭くしても大抵は上手くいく。    失敗した時だけビーム幅を広げてやり直す。 スーパータギングによる文解析器 局所処理と周辺文脈 意味の構成性(Compositionally)  フレーゲの原理:全体の意味は、部分の意味から決定される  ボトムアップに意味は計算できる  周辺文脈からの優先解釈の決定   辞書項目を選ぶ場合に、周辺を見て選ぶ→スーパータギング 優先探索を木構造作る過程でやるより、 木構造は作ってしまった後で項目選択時にやる。 スーパータギングのモデルにフィードフォワードする等でより高度に発展させると、 ユニフィケーションせずに探索問題として解けて、効率も良いシステムが作れる可能性。 統合的なモデルから段階的なモデル、 初期の段階で豊かな情報を参照するモデルが高効率な処理モデルになり得る。 述語-項構造は、より深い構造へと情報を写像するためのインタフェース表現となる。 巨大な学習データがあっても良いと思うが、 人間は、巨大な学習データを必要としないように見える。 Q: 安易に機械学習で何かをまとめて学習するというアプローチはそもそも  無理筋じゃないかというのは全く持ってその通りだと思う。そこを人間が  試行錯誤的にデザインしている部分そのものを機械化してしまえば、  と思うが、それでも計算リソース的には厳し過ぎるのだろうな。  そもそもそこを定式化(≒システム化)できていないわけだし。 会場Q: 生命科学の分野に特化されてイベントへのマッピング等をやる場合、  一般の場合にはどう手をつけたら良いかがまた悩ましい。どうアプローチ  したら良いか。 A: ドメイン特化知識と一般言語を繋げる所に、もう少し意味が寄与している  ように思う。言語だけでも知識だけでもないような部分を捉える必要がある。  ただし直接的にやろうとすると非常に粗い研究テーマになるので、  今はドメインでやってみたい。ワトソンも、かなりドメインを絞った特殊化  されたシステム。事象は何か、関係とは何かというのはまだ早いかなという印象。 会場Q: 巨大なデータを必要としないという点について、確かに巨大データを  食わせるのはどちらかというと嫌。ただ食わせるだけではなく、裏にある  何かについてもデータを必要としない考え方や枠組みが必要ではないか。  スーパータガーのモデルをどう作るか。 A: 巨大データの是非については議論の余地がある所。巨大データは知性とは  全く違うので、人間には無いような何かを持つ可能性もあり得る。  何かヒントが見えるところは否定できない。何をストラテジーに研究するか  ということ考えると、ドメイン・アダプテーションについて、比較的早く  適用するというタイプの研究もあり得ると思う。個人の話としては、  巨大データを食わせてドメイン特化モデルを別分野に適用する際に、  なるべくかかるコストを少なくしたい。ある種パラメタライズされた  ようなモデルかもしれない。パラメタさえ分かれば調整できる、  そういう感じのことをやりたい。
P3: ポスター(3) P3-3 英語論文表現データベースを用いた分野横断的ムーブ分析 (pp.591-594)
○金丸敏幸, マスワナ紗矢子 (京大), 笹尾洋介 (ヴィクトリア大), 田地野彰 (京大)
論文の構造が「背景→目的→、、、」とかIMRDという順番になっているかを 大量文献&人海戦術で調査してみたという話。アノテーション自体に揺らぎが 多く含まれているっぽいけど、こういうのが積み重なると、 「こういうストーリー構成の物語を読みたい」みたいな検索ができたりするんだろうか。 P3-4 語の共起を効率的に検索できる日本語作文支援システム「なつめ」の紹介 (pp.595-598)
○阿辺川武 (NII), ホドシチェク・ボル, 仁科喜久子 (東工大)
当初は留学生向けの作文支援ということだったようだけど、 特に留学生に限定する必要ないよねということで表記のタイトルになってるらしい。 限定する必要が本当に無いのかが気がかりで質問してみたのだけど、 本当の所はどうなんだろう。 P3-8 短答式記述答案の採点支援ツールの開発と評価 (pp.611-614)
○中島功滋 (ベネッセ/CRET)
比較的単文(1文とか2文?)を想定した採点支援のため、 クラスタリングすることで似たような回答群としての提示と、 参考回答とのBLUE距離で参考採点付けてみたらしい。 問題文も利用できそうなんだけど、そこは手つかずっぽい。 P3-10 汎用アノテーションツールSlate (pp.619-622)
○Dain Kaplan, 飯田龍, 徳永健伸 (東工大)
多分、嬉しいツールなんだと思うけど、 「こういうアノテーションにはこういう属性名付けると良いですよ」 みたいな推薦までサポートしないと使い難そう(アノテーション結果を 利用するユーザにとって使い難そう)な予感(勝手な想像)。 クラウド的にアノテーションされたデータ蓄積しまくって、 傾向抽出すると面白そうなんだけど、どうなんだろう。 P3-11 『日本語話し言葉コーパス』における話題導入表現の形態統語論的特徴と談話構造の分析 (pp.623-626)
○高梨克也 (JST/京大)
面白そうなんだけど客多数で話聞くタイミングが合わず。後で読もう。 P3-12 複数の客観的手法を用いたテキスト含意認識評価セットの構築 (pp.627-630)
○宇高邦弘, 山本和英 (長岡技科大)
逆説的なのか自分自身で良く分かってないですが、 主文から推察できる事象を、その確度と共に生成できると便利そうなんだけど、 同じ話なんだろうか、違う話なんだろうか。 P3-21 長単位に基づく『現代日本語書き言葉均衡コーパス』の品詞比率に関する分析 (pp.663-666)
○冨士池優美, 小西光, 小椋秀樹, 小木曽智信, 小磯花絵 (国語研)
素性に「形態素、句、節」といった単位とは別(?)に、 「短単位、長単位」という言語単位があるっぽい。 P3-29 筆跡とパーソナリティの多面的対比 (pp.691-694)
○高野孔司, 久野雅樹 (電通大)
心理学?だかである程度の傾向はあるものと解釈するのが正しいのだと 思ってましたが、そうでもないのかしら。問題設定(テスト環境の設定) 次第でどうにでも解釈が変わりそうでもあるので、そこら辺の話が気になります。

NLP2011, 本会議1日目終了(セッションB1: Web応用)

火曜日, 3月 8th, 2011

NLP2011、本会議1日目(一般講演セッション1つ+招待講演1つ+ポスターセッション2つ)。
これ書いてる時点ではまだ終了してないですが(ごめんなさい)、
ポスターセッションで見たかったものは見て終わったので、今日のまとめ。

例によって青字は個人的な疑問等赤字は会場質疑応答です。

目次
B1: Web応用
 ・質問で不足している情報を回答で指摘されたユーザが再投稿した質問の調査
 ・ブログにおけるコメント先の解析
 ・大規模Web情報分析のための分析対象ページの段階的選択
 ・情報分析システムWISDOMのユーザ評価とその分析
 ・言論マップ生成技術の現状と課題
 ・Web文書の時間・論理関係分析に基づく情報信頼性判断支援システムの開発と実証実験
 ・クエリログの時系列情報に基づくキーワード修正リスト生成手法
招待講演1: ゲノムを読む、榊 佳之 氏(豊橋技術科学大学学長)
P1: ポスター(1)
P2: ポスター(2)





B1: Web応用

B1-1 質問で不足している情報を回答で指摘されたユーザが再投稿した質問の調査 (pp.33-36)
○小島正裕, 水野友之, 渡辺靖彦, 岡田至弘 (龍谷大)
情報が不足している質問 ・不足している情報の指摘 ・指摘を利用した質問作成支援システム(最終目標) →今回は調査報告 直接的に解決する回答ではないが、 解決のための状況確認を促すコメントの割合が多い。 →さらにその中でも  「質問者がそもそも知らなかった情報」よりも  「知っていたが記述していなかった」割合の方が多い。  →質問することで指摘すること自体で良質の質問を行えるのではないか。 Q: SVMで何かを学習するようだけど、入力は質問文だとして出力は何だろう。 Q: 質問カテゴリを「パソコン・周辺機器」に絞ったことで「質問での説明  が不十分」になりやすいという傾向が無いか? Q: 「質問での説明が不十分」であることを指摘する際、何が十分でないの  かを伝えることが適切かはどのように判断するのだろうか? 会場Q: 今回の事例は、全体の中でどのぐらいの割合なのか。 A: 4,000件/100,000件(多分)。 会場Q: これはシステムが検出した件数だと思うが、coverage は  どのぐらいかは調査しているのか。 A: まだしていないが、大凡の傾向としてはこのぐらいだと認識している。 会場Q: 最終的にこの結果をどう使いたいのか。情報が不足している  という指摘を自動的にしたいとのことだが、質問する(質問だけ  を見る)段階なのか、ペアを見て分かるようにしたいのか。 A: 両方。 会場Q: ペアを見ないと分からないというのでは余り面白く無いの  では。回答が無い状況で指摘できるようにはならないのか。  現状のシステムではどうなる? A: 現状ではまだ動いていない。 A: 予想する所はかなりいけている。しかし、不足している情報の  可能性がいろいろあって、どれから出したらユーザに取って便利  なのかというところが良く分からない。良い答えが返っているの  はどういうペアの時かという情報から重み付けることで、優先度  を付けることができるだろうと考えている。
B1-2 ブログにおけるコメント先の解析 (pp.37-40)
○津野優佑, 徳久雅人, 村田真樹 (鳥取大)
情報収集の際、ブログ記事本体だけでなく、コメント部にも有益な情報がある。 ただし、コメントが何(記事本体or先行コメント)に対する情報かが分からない。 →コメント先の解析 
着目点 ・文章内容の類似度 ・ブログ記事の特性(コメント先や相手名を明示する慣習など)利用 ・共通名詞の利用(コメント中の共通名詞) Okapi BM25 によるスコア利用 ・共起語の利用 ・文末表現対の利用(コメント元コメント先の文末部分3文字を利用)  e.g., 〜ですか? 〜ですよ Q: テスト用正解データを人手で作成しているとのことだが、厳密な正解  が判断しづらいケースもありそう。どういう例があったのか。 Q: 複数手法の組み合わせ方を優先順位として決定しているが、重み調整  して利用することはできないのか。 会場Q: コメントにはブログの記事本体へのコメントや、コメント間  コメントもあると思う。今回は本体へのコメントは扱わなかったのか。 A: 今回は本文もブロックの一つとしており、扱っている。 会場Q: 本文はコメントより長いが、その影響は無いのか。  式が変わってくるとか。 A: 文長によってスコアや特徴量が変わるというのは、文長によって  調整してくれるため影響は小さいと思う。 会場Q: 単純に、新しいコメントであれば本文に繋げるといった  ナイーブなルールは使用していないのか。 A: 提案としてはあったが、今回は利用していない。 会場Q: 「**さん」といったことを付けないと行けないのは、複雑な  時には効くと思うが、そうじゃない時には前のその人のものという  アドホックなものでどのぐらい精度が出るのか。そこがベースライン  になりそう。そこでどれぐらいの精度になりそうか。 A: コメントを確認していた限りでは、コメント先を明示していない  ことが多いので、さほど差が無いと考えられる。 会場Q: コメントが10も20もある場合は別だが、数個の場合には  ほぼ本文じゃないか。 A: コメント2は本文かコメント1へのコメントである場合だけでなく、  全く関係ない話題へのコメントでもあり得る。 会場Q: 問題の難しさを示すためにも、先に示したアドホックな方法で  どのぐらい精度が出るかを示した方が良いと思う。 会場Q: コメントや本文を大きく一塊にしているが、塊の粒度を変える  ことに対してどのぐらいロバスト性があるか。 A: 発話単位でやっているが、対象としてる文の範囲を帰ることも可能だと思う。 会場Q: リスト順位のトップを変更したケースも試していれば、  その結果についても知りたい。 A: 今回は試していない。
B1-3 大規模Web情報分析のための分析対象ページの段階的選択 (pp.41-44)
○赤峯享 (NICT/NAIST), 加藤義清, 川田拓也, レオン末松豊インティ (NICT), 河原大輔 (京大/NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT)
WISDOM「誰が、何を、どう評価/主張しているか」 分析基盤  10億ページ/2億の構文解析済みページ  スパムページやカタログページばかりでは有益じゃない  →ページ選択が重要 
Web検索:検索結果の上位数ページ Web情報分析:上位数百〜数千ページが影響度高い ・品質の高いページ  フィルタリング(カタログ、スパムページやduplicateを除外)  重み付きサンプリング(PageRank等) ・更新同期の取れたページ 選択精度を上げるには、メタ情報だけでなくテキスト内容を利用する方が有利。 だが、計算コストが高い。 →仮定:サイト中の一部のページ品質≒サイトの他のページ品質  段階的に選択を行うことでコスト削減。 Q: ページやコンテンツの質に関連しそうな付加情報として、ブログや  ツイッター等での「likeやfav」といった付加情報や、delicious等へ  の登録等様々な付加情報が増えてきていると思う。このような他ユ  ーザが直接的にインタラクションを行った情報を利用することは  困難なのか。 会場Q: 品質の高い、分析に役立ちそうというのと、Webの何を対象  にして分析したいのかに依存しそうだが、罵詈雑言みたいなのも  取りたいということもありそう。どういう立場で役に立つ・立たない  というのを考えているのか。 A: 質の良い罵詈雑言があるという段階ではなく、自動生成された  duplicate/カタログページをまず取り除きたいというのが第一段階。 会場Q: 結果で示した20〜30%というのはそれに該当するページ? A: 殆ど無駄になるページ。 会場Q: 適格/不適格ページを人間でもある程度判断できたとのこと  だが、ケース次第で変わることもあるし、判断のぶれもある。 A: 本当にみんなが低く入れたページは、テキストは含まれているが  2,3文だとか。人によって品質が違うというレベルまでは現れて  いない。人によって判断が変わるという部分は、さらに分析後で解決する。
B1-4 情報分析システムWISDOMのユーザ評価とその分析 (pp.45-48)
○川田拓也 (NICT), 赤峯享 (NICT/NAIST), 河原大輔 (京大/NICT), 加藤義清 (NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT), 木俵豊 (NICT)
http://ici.wisdom-nict.jp/ 続き発表。WISDOM概要と、その評価について。 Webを利用した意思決定を如何に支援できるか。 意思決定プロセス[Simon 1977]に応じた支援技術の開発 ・新たな行為を必要とする状況の設定 ・可能な行為の代替案の探索・発見 ・その中から選択する過程 Q: 玉石混淆の中から情報を選り分けるというタスクにおいて、Web上の  データ以外の知識は利用しているのか? もし利用しているならばど  のようなものか? 利用していないならば、Web上のバイアスを避け  ることは困難だと思うが、それは問題にならない? Q: 選り分けの支援とは一種の情報推薦に相当すると思うが、ユーザの属性  を考慮すして支援することはできないか。例えば、人の属性毎にどの  ような選別をしやすい(することで理解しやすい)形式や、必要とす  る項目は限定されているといったことはできないのだろうか。  →多角的総合的に分析した結果を提示することで代替している。 Q: アンケート評価を行っているが、実際に情報収集・分析するのに要する  時間や労力には違いが見られたのか。  →調査時間も計測しているが、厳密には評価していない。調査自体が   いい加減な人は評価がばらばらになりがちというのは見られた。 会場Q: アンケート評価一般100人について、意思決定にも色々あると  おもうので、ユーザ層を絞って評価してみては。 A: 敢えてユーザ層をばらけさせている。そもそもどういう意思決定が  あるかを知りたいということと、層毎に質的な差異があるならそこも  確認したい。
B1-5 言論マップ生成技術の現状と課題 (pp.49-52)
○水野淳太 (NAIST), Eric Nichols, 渡邉陽太郎 (東北大), 村上浩司 (楽天), 松吉俊, 大木環美 (NAIST), 乾健太郎 (東北大), 松本裕治 (NAIST)
目的:ユーザの情報信憑性判断を支援 検索された情報を、クエリと意味的関係に基づいて分類し、俯瞰的に表示  同意/対立、根拠、弱対立 言論マップ生成  係り受け解析  述語構造解析  拡張モダリティ解析  局所構造アライメント  関係分類  修辞構造解析 対立関係精度はまだ不十分  海面が上昇する下がる:は認識できる。  海面が上昇する変化しない:は推論が必要。 Q: 同意/対立/弱体率、という視点からトピックを分析しているが、  何故この視点を選んだのか。 Q: 信憑性判断を支援するために多角的な意見を俯瞰的に提示する  ことの評価として、絶対的な基準を設定することは困難かと思うが、  それを考慮しても評価方法は妥当か?(ある程度の軸を提示する  ことで十分だと判断しやすいという傾向を見ているだけではないのか) 会場Q: アライメントが大事とのことだが、理由の所はそもそも  パッセージ検索で違うのが取れてしまう? A: 述語の対立が大変。 会場Q: ユーザ評価について、悪い評価をしたのはどういう例があったか。 A: 基本的には高評価で、悪い評価をしたのは精度やインタフェース  への指摘、ソースが欲しいといったコメントを頂いた。 会場Q: システムのスピードはどのぐらいか。 A: 検索対象文をどのぐらい取ってくるかにもよるが、1クエリで2〜3分。 会場Q: 対立意見を取ってくる所の評価が低いようだが、モダリティ解析が困難? A: 基本的にはモダリティが困難だが、そもそも述語の対立語彙知識が  他と比較して少ない。あるドメインでは対立しているが違うドメイン  ではそうでもない、こともある。
B1-6 Web文書の時間・論理関係分析に基づく情報信頼性判断支援システムの開発と実証実験 (pp.53-56)
○岡嶋穣, 河合剛巨, 中澤聡 (NEC), 村上浩司 (楽天), 松吉俊, 水野淳太 (NAIST), エリック・ニコルズ, 渡邉陽太郎, 乾健太郎 (東北大), 渋木英潔, 中野正寛, 宮崎林太郎, 石下円香, 森辰則 (横浜国大)
WISDOMと相補的なシステム。 情報信頼性判断を支援するシステムの開発と実証実験。 「どうしてその意見を言っているのか」 根拠/理由/切っ掛け/etc. 根拠→言論マップ 異なる意見が生じる理由→調停要約 意見を変えた切っ掛け→意見変化イベント抽出 Q: アンケート評価しているが、ある程度満足できれば高評価するのは  当然で、システムとして適切な結果を提示出来ているかの評価とし  ては不十分では?(そもそも絶対的な正解がある問題では無いと思  うが、何かしら客観的な正解を用意できないか?) 会場Q: トピック毎に分散があることが何を主張したいのか良く分から  ない。調べ方が難しい?価値判断しづらい? A: その2つの側面があり、調べ方が難しく既存システムだと何波ターン  かクエリを試す必要がある。価値判断については、自分は賛成だから  賛成だけを見たい、若しくは逆に反対意見だけを見たい、といった  ことが考えられる。 会場Q: 提案システムと既存システムとで分散が異なるというのは、  ユーザの行動が違うのか? A: それぞれのユーザが賛成意見だけを見たい意見だった場合反対の意見  が低くなることが考えられるが、どちらも網羅的に提示しているため  分散が少なかったと考えられる。 会場Q: 分散分析してみた? A: 統計的優位性についてはまだちゃんとはやっていない。 会場Q: 男女性別が影響しているか、年齢が影響しているかとか見れる  かもしれない。 A: 正確な分析はしていないが、世代や職業については調べてた範囲では  大きな差は見られなかった。 会場Q: 大きなモジュールとして3つあるが、これで十分なのか、まだ  不足していて何か追加が必要なものがあるのか。 A: 難しい。この他にも画像系の処理しているグループもある。 会場Q: 自由回答で「こういうのが欲しい」というのは無かった? A: 発信情報の信頼性ソースが多く、他には特に無かった。
B1-7 クエリログの時系列情報に基づくキーワード修正リスト生成手法 (pp.57-60)
○平手勇宇, 竹中孝真 (楽天)
キーワード修正アルゴリズム:もしかして検索。 文字列距離で多くはうまくいくが、例外もある。 「桃らー」→「辛そうで辛くない少し辛いラー油」 →文字列上の距離が大きいキーワードに対して、クエリ修正行動を利用。 Q: 未知語抽出や同定と同等課題? 会場Q: Googleでもクエリの書き換えということでコメント。適合率80%  は甘くて、世の中では99%じゃないとダメ。極端な事例だが訴えられる  こともある。書き換えパターンを拾っていくと、言語モデルが小さい  ので類似パターンが多く見つかる。一つ一つのインスタンスを見るの  ではなく、同じような書き換えを行っているといった全体を見れば、  精度も高くなると思う。 A: 人手でチェック済ませた後で登録するので、この段階では80%ライン  で多めに出した。追加した後のクエリログ見ることで、クエリがクリック  されなければ違うという判断もできるかと思う。キーワード間距離を  拡張する上でコメントについても検討したい。 会場Q: 読みが々で違うとか、タイポの割合はどのぐらいか。 A: 感覚としては3割ぐらい。残り3割(?)は商品名メーカー名。
招待講演1: 「ゲノムを読む」講演者 榊佳之 氏(豊橋技術科学大学学長) 当初は個別に「どこそこに遺伝子を発見した」が行われ、 全体が見えないままに試行錯誤的に着手されていた。 このままでは拉致があかないので、 ・国際的に協力し合い、 ・各国で責任を持って取り組む箇所を分担し、 ・解読したゲノムを無償公開 する形で取り組んだ。(すばらしい!) サンプル調整→配列決定→データ処理・編集→サンプル調整の繰り返し。 各プロセスで異なる長所が求められる。 →大規模センターではデータ生産の効率性を高める工夫 ヒトゲノム解読のレベル ・何処に何が書かれているか。  これ見ただけでは意味付けがサッパリ分からない。 (1)ゲノムの基本要素を見つける(遺伝子/発言制御エレメント/その他) ・人間だけ見てると分からないが、  例えばハエとかマウスとか、人間以外と比較することで分かることも多い。  →比較ゲノム解析   割と共通している部分が多い。   脊椎動物における制御配列が浮かび上がってきた。 (2)基本要素の機能を知る。  遺伝学的な手法(正遺伝学/逆遺伝学)   遺伝学:遺伝子と表現型の関係を推論する科学   遺伝要因/環境要因   →個人差問題  相同性からの推定(相関解析法)   個人差10%なら該当件数数万。   1%なら該当件数が数千万単位。   何千万分布の偏りはどうなっているか。   →例:脳梗塞/糖尿病になりやすい関連遺伝子は?    ただし要因自体が多岐にわたるので、特定の人達を集めて観察し、    リスクファクターを特定するといった工夫が不可欠。また、    本当に直接要因なのかといった、因果関係の調査も必要。  相互関係からの推定 (3)遺伝子制御システムを理解する  階層性  正と負の制御  頑健性   スケール・フリーなネットワーク構造 (4)これらはまだ静止画。本当の生物は動画。ダイナミックな関係図を描く必要がある。  システム・バイオロジー(現在盛ん) ヒトゲノムが全て読めたことで、 個別事象を全体との関連で捉えることができるようになった。
 テクノロジーの発展  30億塩基の収集に、2002年で1200日程度かかったのが、  2008年には2日、2010年には数分でできるようになってきた。  →全日本人のゲノムデータも集積可能な段階に   必要に応じて個々の解析を検討することも視野に。  →代謝経路予測   Synthetic Genomics   最適のゲノムを構成し、目的に合った最適な生物を構成して   利用することもできるのではないか。   →細菌ゲノム完全合成の例 会場Q: 経路が良く分かるという話について。経路が分かるためには、  かなり多くのタスクが集約されていると思う。NLPにおける言葉に  置き換えるとそこは並大抵の努力ではないように見える。これは  どうして可能になったのか。 A: 基本的には物質を分解する経路。徹底的に遺伝子を調べられて、  基本骨格がある。それからの相同性、相反性、既存経路との関係性  から求めていった。基本骨格、例えば大腸菌とかがあり、そこから  積み重ねていった。 会場Q: DNSシーケンスやる時には馬力のある人とか様々な人が必要  になるようだが、NLPでもそうだと思える。そこをうまくやる  というのは、眼力を持った人がやる? A: 眼力もあると思うが、まずは3つのプロセスともやらせる。その上で  向き不向きを見ていく。全体を理解してもらうのが大切。パートだけ  入ると何のためにやっているのかが分からない。
P1: ポスター(1) P1-12 意見の重要度と客観的補足情報を考慮したレビュー要約 (pp.204-207)
○唯野良介, 嶋田和孝, 遠藤勉 (九工大)
「属性毎に数値評価+自由記述文」で構成されるレビュー群を要約するという話。 【重要語(TFIDF)+分類(クラスタリング)+集約(セントロイド文選択)】 に属性毎の数値評価も組み合わせたやつは評価自体の揺れもあって あまり精度が高くならなかったとのこと。 数値評価を除いた方法で重要文選択するところは比較的良かったっぽい。 P1-13 直接調停要約自動生成システムHERMeSの言論マップとの連携 (pp.208-211)
○石下円香, 渋木英潔, 中野正寛, 宮崎林太郎, 永井隆広, 森辰則 (横浜国大)
ある2つの対立意見について、実は対立しているのは異なる軸であって、 そこを考慮した要約文(直接調停要約)を自動生成しようという話。 解析対象を「全体集合:肯定文書群:否定文書群」の3パターンに分けて、 各々で特徴語抽出。単純な頻度ではうまくいかないが、ランキング+差分 で見るとうまくいくケースが見られてきた(いかないケースもあるが)。 ということらしい。 P1-14 直接調停要約自動生成システムHERMeSの対比表現を用いた精度向上 (pp.212-215)
○永井隆広, 渋木英潔, 中野正寛, 石下円香, 宮崎林太郎, 森辰則 (横浜国大)
精度を高めるために対比表現  接続詞:だが、しかし、、、  接続助詞:けれど  その他:ではなく、逆に、、 を加味してフィルタリング処理で、ある程度効果があったらしい。 P1-16 テキストの内容を表す記述要素の自動生成手法の検討 (pp.220-223)
○久保木武承, 山本和英 (長岡技科大)
単にキーワード検索するだけだと提示される文書群が欲しいページなのか 分からない。それを補助する目的で「テキスト内容を表す記述要素」を 定義し、それを自動生成+自動付与する基礎実験をしてみた、という話。 スニペットや要約とはまた違った視点という意味で面白い。 P1-19 Twitterからの自動車の不具合情報抽出 (pp.232-235)
○北林智治, 酒井浩之, 増山繁 (豊橋技科大)
(1)該当文が不要か否か、(2)Twitter特有の言い回しか、 (3)文に含まれる単語対は何か、(4)抽出条件に合致するか、 といった工程を経て情報抽出するという話。 綺麗に整えたアプローチ。
P2: ポスター(2) P2-1 共起要素のクラスタリングを用いた分布類似度計算 (pp.292-295)
○大平真一, 山本和英 (長岡技科大)
単語共起を利用して「単語同士の類似度」を求めましょうという話。 良くありそうな話だとは思うけど、ノイズ除去するための工夫を加える ことで先行研究よりエラー低減したらしい。 P2-5 述部機能表現の意味ラベルタガー (pp.308-311)
○今村賢治, 泉朋子, 菊井玄一郎 (NTT), 佐藤理史 (名大)
範囲同定と曖昧性解消を同時にやりましょうというアプローチが面白い。 フレーズラティス(表層形+意味ラベルをセットにしてラティス 構造として扱う)を構築して、最尤パス探索問題に落とし込む。 素性には表層形ベースのN-gram素性と、ラティス周辺情報としての マッピング素性2種類の合計3種類で構成しているっぽい。 P2-7 日本語格解析において問題となり得る諸現象の定量的分析 (pp.316-319)
○花岡洋輝, 松崎拓也 (東大), 宮尾祐介 (NII), 辻井潤一 (東大)
「深い構文解析」をするための定量的分析。超お疲れさまです。 項-述語構造が構文木的に遠い所にある関係が取り難いよね、 それをどうにかしようというところへのワンステップっぽい。 spainホップ数という距離を導入することでどのぐらいcoverage が見込めるかを大規模に調査したらしい。

NLP2011, チュートリアル終了

月曜日, 3月 7th, 2011

NLP2011の一日目(チュートリアル)が終了しました。

チュートリアルというだけあって分かりやすい言葉で話されてるケースも多いのですが、濃い話が長時間に渡って続いたので途中から自分で咀嚼することができなくなってる部分が多数。頂いた資料には参考文献も多数示されているので、適宜参照しないと。

今日一日の感想としては、NLP(自然言語処理)というキーワードで括っていても研究対象やアプローチが多種多様なのを体感でき、自分がやろうと思ってることも、よりブレイクダウンして考えないと前進することが困難だということ。前進できたとしても討論の場に持ち上げることができず、「試してみました」だけな話になってしまいそうなこと。一方で、その討論のために評価を厳密にやることが困難なテーマも多数ごろごろしてることが良く分かりました。評価困難だとしても、取りあえず第三者が使えるようにツールを公開してしまうことでリアクション得られてより進みやすくなるというのも、その通りだよなと再確認。やること一杯あって、ある意味幸せですね。

以下に、今日のチュートリアルに関するメモと、質疑応答関連のサマリを残しておきます。

青字で冒頭に「*」や「Q:」が付いてる箇所は個人的な疑問やコメント。
赤字は会場内での私が意味を汲み取れた質疑応答。

目次



(T-a) 3月7日(月) 11:00〜12:30 司会:高村大也(東工大)
「強化学習の基礎と言語処理への応用」伊藤秀昭 氏(佐賀大学)
試行錯誤により報酬を最大化する行動を学習する。 教師あり学習と異なり、明示的にどの行動が最適化は与えられない。 >一段の決定問題(bandit problemの例) ここでは観測は無し。 強いて言うなら2台のスロットマシーンがあるということを観測する。 *報酬自体も観測の一部だと思ってたけど、独立して考えるのね。 最初から期待値が求められるなら計算したら良いが、ある行動を選択した 際に得られる報酬がどの程度見積もれるか分からないときに、最適な行動 を学習したい。 →行動価値の推定 ・exploitation vs. exploration 回数が少ないうちはQ(a)はあまり信頼できない。  arg max(Q(a)) を選ぶべきか(greedy action)  それ以外の行動を選んでQ(a)をより正確にするべきか(exploratory action)  →厳密な解決(様々な要因により異なる)は困難。近似解を考える。   ε-greedy法   softmax法 Q: 報酬が変動するような場合にはどうなる?  ・短期的変動/中長期的変動とかケースバイケース?  ・多段決定問題と等価?   ・割引率の推定/調整問題? >多段の決定問題(三目並べの例) ・1段決定問題との違い 環境:agentの行動により影響を受けるもの+agentに観測と報酬を与えるもの。 報酬:行動の評価はすぐに得られるとは限らない。 →1回のplayでどのぐらい報酬が得られるかを推定。 ・遷移グラフで全局面を網羅生成 ○と□で表現された経路には、観測と行動の履歴を対応付けることができる。 各履歴の生起確率は、各行動and各観測がどの確率で得られるかに依存。 ある履歴o1において行動a1を選ぶ関数π((o1),a1)を政策と呼ぶ。 最適なπ()を学習するのが目標。 ・観測関数 ある行動を選択した結果、どの観測に遷移するか(相手がどの手を選ぶか)を観測関数と呼ぶ。 政策と観測関数から、履歴の生起確率が求められる。 ・エピソード 履歴の中で終端まで到達したもの。 ・報酬関数 ある履歴において行動aを選択したとき、直後の報酬がある確率分布に従って得られるとしたもの。  報酬の割引率(遅く勝つより、早く勝つ方が良い)  割引率を加味して、各エピソードの報酬和を評価。 Q: 単純に割り引くことでデメリットは無いか?  ・例えば一時的に負けるが最終的に勝てるような行動履歴は得られる? ・期待報酬と最適policy  報酬関数と履歴の生起確率から期待報酬を求めることができる。  ランダムpolicy→常勝policyへ。   環境<A,O,o(1),θ,R,γ>:固定   V^π=E{R_e|π} を最適化   →いろんな解法がある。 >解法1: direct policy search policy π(h,a)は履歴hと行動aから確率への関数だが、膨大なので近似が必要。 近似の仕方は工夫のしどころ。NNやlog-linearモデル等。 →πがθでパラメトライズされた近似 policyを、π(h,a:θ) や単純にπ(θ)と書く。  勾配法:このままでも計算量多いので更に近似→確率的勾配法。 >言語処理への応用 [Branavan 09] Windowsのヘルプ文章→文書の指示通りにWindowsを操作。 その文章から操作への写像を学習。 観測:文書のみ処理部分の一部+PC画面の情報 行動:PCへのコマンドと、文書のどの部分を処理したかの情報 報酬:操作の正しさをチェックするのは困難なので、工夫。  負の報酬   アイテムに対応していない状況に陥った場合、それ以上操作を続けられない。   行動数。  正の報酬   多くの単語を処理できた場合。 Q: (パッと見だけど)文書を処理する順番は考慮していない? 会場Q: どのぐらい学習を繰り返せば良いのか。仮定をおくことで理論的な終了  タイミングは分かるのか。 A: 最適値が観測できる場合には分かるが、一般的には観測できないので、分からない。 会場Q: 強化学習ではロボットでインタラクションがある時に良く使われているが、  そういうインタラクションが無い場面ではどういう用途に使われている? A: 資料最後にある対話システム [Young 10] が一つの例。バーチャルな世界にモノ  を作っている。バーチャルな世界でも複雑になってくると計算困難なので、擬似  的に最適値を学習させたい。 会場Q: ユーザの反応を取り込んでいる? A: この例では Simulated User を作ってやっている。 会場Q: 言語処理における強化学習の応用として、どの辺りに可能性がありそうか? A: 対話処理では結構使われている。それ以外にも人間が関わるいろんな所に使える  のではないかと、漠然と考えている。 会場Q: 集団での対話は、1対1の対話からやる強化学習とは少し異なるように思うが、  そこは余りやられていないように思う。これはやるべきなのか、やらない方が良いのか。 A: 全てをRLでやろうとするのは大変。表面を見るといろんな情報が入り込んで複雑  に見えるが、うまく抽象化ができれば、例えば質問するとか挨拶するとか、そうい  う単純な形で書けるならRLしやすい。それ以外のケースではRL以外も検討し、  上手く使い分けすることが良いのでは。
(T-b) 3月7日(月) 13:30〜15:00 司会:宮尾祐介(NII)
「形式意味論の考え方とその変遷」戸次大介 氏(お茶の水女子大学)
>背景と形式意味論 自然言語の「意味」は多様な側面があり、直接研究対象とするのは困難。 2文の間に演繹関係があるか。 1文目(包含する方)が真ならば、演繹関係がある副文も真。 これを論理的演繹として定義することが形式意味論の第一ステップ。 形式意味論とは、含意関係を予測・説明する理論。  ・意味的含意  ・会話の含意 >モンタギュー文法(PTQ)[Montague 1973] PTQは形式意味論ではない。→形式意味論である。by @kaleidotheaterさん モンタギューを否定しながらも、PTQのアプローチを参考にしながら厳密な形式意味論をやる。 PTQ:シンタックス+セマンティクス(IL) IL:一階述語論理+様相論理+型付きラムダ計算 *前半20分ぐらいから既についていけてない。。(涙) →ひたすらPTQの気持ち悪さを感じて欲しいというのが趣旨だったらしい。orz PTQ自体は不完全なものだが、 スコープ分析の仕方は面白く未だに似たようなアプローチが多い。 また、これを「de re読み」と「de dicto読み」に応用した点がエライ。 らしい。 初の「構成的意味論」(compositional semantics) を提示することで、 意味論が反証可能になった。 それまではある文→論理式への写像があやふやだったが、 初めて単語レベルからの写像を提示した。 「論理では自然言語が扱えない」という議論に対し、 恐らく初めて提示した論文。 PTQは沢山問題があるが、 反証&修正という歯車が回り始めることで現在の発展につながっている。 "Generalized Conjunction", "Type Raising", etc. 会場Q: センテンス→文章の意味、文と文の意味を扱うことについてどうやったのか。 A: 今回の話は80年代だった。文と文を繋いでしまって一まとまりとして扱うのも  やられているし、どう切り分けるかについても様々なアプローチがある。DRP(?)。  Compositional なDRPが無いかということについては90年代以降やられている。 会場Q: (1)使う立場からすると「分からない」のが大問題で、難し過ぎて使えない。  力学だと古典力学/ニュートン力学・・・と進んでいるが、多くの場合は古典力学  で十分。形式意味論についても、ある程度小さいものならこれぐらいの複雑さでOK  というものがあると助かる。  (2)スコープについて、人間が読んでも良く分からないものもある。自然/不自然言  語処理。良く読むとこういうことかもしれないというものについて、  何かしら考えがあるか。 A: (1)難しいからではなくて、完成していないからだと思う。量子力学やればできる  というような統一された世界が無い。計算的側面も欠けている。全部の現象を考え  ていないから、ブレイクスルーが起きていないのだと思う。統一した瞬間簡単な  ものになると考えているので、そこを目指している。  (2)はっきりとした理論ができた後の話かもしれない。 会場Q: 一般全ての文例を説明することへのチャレンジはとても大切なことだと思う。  その手続きの詳細を理解できる人は少ないかもしれないが、パッケージして使える  ようになれば利用者も増え、発展しやすくなるのでは。 A: 形式意味論で扱っているというのは、分野に限らず全部についてやっている  というより、言語を扱う以上そこを避けて通ることができないのだと思う。  まず「意味」が良く分かっていないから、こういう風にやっている。  そもそも「意味」をどう書くか、どういう振る舞いを持つ演算として書けるか。
(T-c) 3月7日(月) 15:15〜16:45 司会:高村大也(東工大)
「Understanding sentences in Japanese」Edson T. Miyamoto 氏(筑波大学)
どのように文を理解するか。 眼球運動(大人)の場合  単純な環境(pick up the candy)似たオブジェクトcandle  →似た単語のオブジェクトがあると230ms 子供(赤ちゃん)の場合  何度、どのぐらいintensionを持って見るか。  遮るものがあると隠れるという知識の有無。  驚く飽きる Neurolinguistics  brain lesions/fMRI/PET/MEG/EEG Reading times  silent reading -> eye movements not smooth: fixations, saccades  仮説:longer reading times=more difficulty  →Self-paced reading   eye tracking とボタン押した回数とを、文節毎に比較 Human parser  (1) cognitive resources  (2) knowledge bases (grammar, social conventions, world knowledge)  仮説:言語の違いは(2)のみに依存→(2)のみを学習すれば良い。   英語の例   日本語の例   →alternative rules I (head is crucial), II(processing is incremental)    客を(ヲ格)/客に(二格)で他単語を見る頻度(≒他に着目する頻度)が異なる。 How soon is the parent node A built?  英語/日本語といった言語の違いはあるが、  「どのぐらい読み違えるか」は似ている(?)。 Q: え、そうなの? Memory resources  Long-term memory  Working memory Hyakurakan test  cause? consequence? Heavy NP Shift  English: heavy stuff to the end  Japanese: heavy stuff to the begin Metrics: how do you measure distance?  number of words  number of new discourse entities  similarity of the constituents  time elapsed  etc. 青字で書かれたred 会場Q: コンピュータはワーキングメモリが一杯ある。アルゴリズムはみんな一緒  でグラマーが違うという話があったと思うが。 A: ワーキングメモリが多いケースは分からないが、少ないケースは患者さんで多  くいる。文章を作ることは普通にできる。ワーキングメモリが必要なのは読む  ときで、多い人は読むのに苦労しないが、少ない人は読むのに時間がかかる。  読む時間は遅くならないが、正答率が遅いというケースや、正答率は高いが読  み時間をかなり要するというケースもある。 会場Q: 時間がかかるというのはアルゴリズムが違うと考えて良いのか。 A: ある意味で違うと考えても良いと思う。ある範囲で頑張る人も要れば、諦める  人もいる。 会場Q: 英語と対比すると日本語は省略が多いと言われる。言語的に依存している  けれども、世界知識的な所で差が出ているのか、グラマーでは違いが無いけれ  ども、どこでその差が現れていると考えられるのか。 A: 全てを統一的に語ることはできないが、日本語の場合は動詞が最後にくる。  だから省略する方が理解しやすいというのはあるかもしれない。
(T-d) 3月7日(月) 17:00〜18:30 司会:藤田篤(未来大)
「言語生成研究の動向」徳永健伸 氏(東京工業大学)
対話システムの応答をどう作るか。 株価/気象データといった(非)言語情報から生成。 テキストからテキスト生成するのも良い。 評価問題:正解がそもそも用意できない 言語生成のサブタスク  テキスト・プランニング:what to say   内容の決定、構造化  マイクロ・プランニング+表層化:how to say   語選択、集約、参照表現の生成   ad-hocになりがち。   参照表現は比較的問題が定式化しやすい。GRE等。 内容の構造化  一般的な形式化は困難  メッセージ集合を談話関係で構造化: e.g, 修辞構造理論RST→テキストプラン  プランニングに基づく構造化 参照表現の良さ  Incremental Algorithm  冗長すぎない方が良さそうだが、心理言語学的観点から見ると   ・「以外と冗長」 [Deutsch 1982]   ・文脈集合すべてを見ているわけではない [Pechmann 1989]   ・漸進的に作られる 評価  内生的評価/外生的評価  MTに近い側面もあるが、そもそも元の文自体が無い。  入力/出力/尺度/文脈/ベースラインは? 会場Q: 参照表現で、日本語に限って言えば、如何に単語を省略するかということ  があると思うが、そういうことはやられているのか。 A: 日本語で生成やってる人が殆どいないこともあって、殆どやられていない。 会場Q: 内生的評価/外生的評価にあまり相関が無いということが指摘されていたが、  割とくらい気持ちにもなるがどう捉えるべきか。どうすべきか。 A: 外生的評価をやるべき。ただし、コストが高い。 会場Q: 内生的評価のコストが低いなら、そこで頑張る方法もあるのか。 A: 理想としてはそうだが、解析やろうとしてる時点でだいたい「これが欲しい」  という目処が立っていることが多い。決めてしまえば他は見ないというやり方  もあり得る。ただし、それ以外が×かというと、フェアな評価とは言えない。  ちゃんとした使う環境で評価することが大切。 会場Q: CGだと生成も解析もどちらも大切なタスクとしてやられているが、  言語ではなぜそこまでやられていないのか。 A: 見栄えの問題が大きい。学生から見ても地味。視覚よりも更に違いが分かり  難いという側面もある。 会場Q: 意味表現が難しいとかそういうことも影響している? A: それも当然ある。対話と密接な関係があり、インタラクションしている中で  それをどう表現するのか等様々なタスクがあり、その先に何があるのか見え  難く、手を付け難いという敷居の高さがあると思う。
更新ログ

NLP2011で気になる発表タイトルをピックアップ→絞り込み失敗

火曜日, 3月 1st, 2011

言語処理学会第17回年次大会(NLP2011)で気になる発表をメモ。

NLP年次大会への参加自体が初めてなんですが、当初予想してたより遥かに規模が大きい。ちょっとした研究会レベル(並列セッションあっても2,3で、1-2日終了するぐらい)を想像してたのですが、6並列*3日間+チュートリアル1日+併設ワークショップ1日とやらで合計5日間ぎっしり詰まる規模らしい。大きすぎるよw

ということで、実際に話を聞くセッションを絞るために取りあえずリストアップしてみました。

リストアップした結果、適当なセッションに突撃しても大抵興味がある話が聞けそうな雰囲気。こっち方面に足を踏み出したばかりだから興味が絞りきれてない気もしますが、ある一つの課題なりに絞ったとしてもそれを実現するためにあれもこれもと複合的に課題が山積みになりやすいテーマなだけかも。という気もします。

全日程参加の方向なのは良いとして、どのセッションに参加するか悩むな。


>3/7(月), チュートリアル
(T-a) 3月7日(月) 11:00〜12:30 司会:高村大也(東工大)
「強化学習の基礎と言語処理への応用」伊藤秀昭 氏(佐賀大学)

(T-c) 3月7日(月) 15:15〜16:45 司会:高村大也(東工大)
「Understanding sentences in Japanese」Edson T. Miyamoto 氏(筑波大学)

(T-d) 3月7日(月) 17:00〜18:30 司会:藤田篤(未来大)
「言語生成研究の動向」徳永健伸 氏(東京工業大学)

(協賛ワークショップ)第5回音声ドキュメント処理ワークショップ
13:00-14:00 特別講演 †
「映像内容解析ならびに検索技術の最近の動向 -TRECVIDを中心として-」佐藤真一教授(国立情報学研究所)


>3/8(火), 本会議第1日
A1:知識獲得   3月8日(火) 09:30-12:10 A1-101教室  座長: 岡崎直観 (東大)
A1-1 専門語彙を手がかりとした知識構成の展開ー生命科学分野を例にー
○浅石卓真, 影浦峡 (東大)
A1-3 Wikipediaの編集履歴を用いた書き換えパターンの抽出
○金山博, 荻野紫穂 (日本IBM)
A1-4 数式の網羅的な生成による新たな類似尺度の発見と評価
○皆川歩, 岡部正幸, 梅村恭司 (豊橋技科大)
A1-6 意味的類似度を用いたWeb文書からの集合拡張
○萩原正人, 関根聡 (楽天)

B1:Web応用   3月8日(火) 09:30-12:10 A2-101教室  座長: 吉岡真治 (北大)
B1-3 大規模Web情報分析のための分析対象ページの段階的選択
○赤峯享 (NICT/NAIST), 加藤義清, 川田拓也, レオン末松豊インティ (NICT), 河原大輔 (京大/NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT)
B1-4 情報分析システムWISDOMのユーザ評価とその分析
○川田拓也 (NICT), 赤峯享 (NICT/NAIST), 河原大輔 (京大/NICT), 加藤義清 (NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT), 木俵豊 (NICT)
B1-6 Web文書の時間・論理関係分析に基づく情報信頼性判断支援システムの開発と実証実験
○岡嶋穣, 河合剛巨, 中澤聡 (NEC), 村上浩司 (楽天), 松吉俊, 水野淳太 (NAIST), エリック・ニコルズ, 渡邉陽太郎, 乾健太郎 (東北大), 渋木英潔, 中野正寛, 宮崎林太郎, 石下円香, 森辰則 (横浜国大)

C1:テキスト・データマイニング   3月8日(火) 09:30-12:10 A1-201教室  座長: 新里圭司 (京大)
C1-2 全部分文字列のクラスタリングとその応用
○岡野原大輔 (PFI)
C1-3 類似論文からの関連用語抽出による論文検索支援システムの提案
○南浦佑介, 新美礼彦 (未来大)

D1:音声言語処理   3月8日(火) 09:30-12:10 A2-201教室  座長: 秋葉友良 (豊橋技科大)
D1-3 質問応答対の増加による精度低下及び速度低下を軽減する選択手法
○井上僚介, 黒澤義明, 目良和也, 竹澤寿幸 (広島市立大)

E1:評判・感情解析   3月8日(火) 09:30-12:10 A1-301教室  座長: 木村俊也 (mixi)
E1-3 評価文書分類における異言語翻訳データの利用法
○乾孝司, 山本幹雄 (筑波大)
E1-6 Web上の誹謗中傷を表す文の自動検出
○石坂達也, 山本和英 (長岡技科大)

F1:テーマセッション1: 複合辞とモダリティ:理論から応用まで   3月8日(火) 09:30-12:10 A2-301教室  座長: 泉朋子 (NTT)
F1-2 伝聞のモダリティと文法化
○金城由美子 (長崎純心大)
F1-6 代表・派生関係および用例を利用した日本語機能表現の解析
○鈴木敬文, 宇津呂武仁 (筑波大), 松吉俊 (NAIST), 土屋雅稔 (豊橋技科大)

P1:ポスター(1)   3月8日(火) 14:30-16:00 A棟ホール
P1-8 「本との出会い」を支援するシステム
○館野紅理奈, 浦谷則好 (工芸大)
P1-11 Blenderを用いた自然言語による3次元コンピュータグラフィックス
○中畑敦夫, 伊藤秀昭, 福本尚生, 和久屋寛, 古川達也 (佐賀大)
P1-12 意見の重要度と客観的補足情報を考慮したレビュー要約
○唯野良介, 嶋田和孝, 遠藤勉 (九工大)
P1-13 直接調停要約自動生成システムHERMeSの言論マップとの連携
○石下円香, 渋木英潔, 中野正寛, 宮崎林太郎, 永井隆広, 森辰則 (横浜国大)
P1-14 直接調停要約自動生成システムHERMeSの対比表現を用いた精度向上
○永井隆広, 渋木英潔, 中野正寛, 石下円香, 宮崎林太郎, 森辰則 (横浜国大)
P1-15 文外照応を含む文の検出による抽出型要約の品質向上
○西川仁, 長谷川隆明, 松尾義博, 菊井玄一郎 (NTT)
P1-16 テキストの内容を表す記述要素の自動生成手法の検討
○久保木武承, 山本和英 (長岡技科大)
P1-17 検索要求顕在化のための「喩え」の利用
○久保真哉, 桝井文人 (北見工大), 福本淳一 (立命館大)
P1-18 QAサイトにおける専門用語を用いた最適な回答者提示
○堀江将隆, 山本和英 (長岡技科大)
P1-20 研究者および研究分野の変遷の自動推定
○堀さな子, 村田真樹, 徳久雅人 (鳥取大), 馬青 (龍谷大)
P1-21 不具合事例からの因果関係抽出に向けた実体性のある名詞の抽出手法の検討
○大森信行, 森辰則 (横浜国大)
P1-23 修辞ユニット分析からみたQ&Aサイトの言語的特徴
○田中弥生, 佐野大樹 (国語研)
P1-24 回答の根拠を提示する意思決定支援型の質問応答システム
○佐々木智 (筑波大), 藤井敦 (東工大)
P1-25 Q&Aサイトの回答から取り出した質問に書くべき情報の特殊さの推定
○谷口祐亮, 小島正裕, 西村涼, 渡辺靖彦, 岡田至弘 (龍谷大)
P1-27 Web文書の時系列分析に基づく意見変化イベントの抽出
○河合剛巨, 岡嶋穣, 中澤聡 (NEC)
1-31 マイクロブログにおけるユーザのクラスタリングとそのクラスタの特徴語抽出
○畑本典宣, 黒澤義明, 目良和也, 竹澤寿幸 (広島市立大)

P2:ポスター(2)   3月8日(火) 16:30-18:00 A棟ホール
P2-3 機械学習を用いた表記選択の難易度推定
○小島正裕 (龍谷大), 村田真樹 (鳥取大), 南口卓哉, 渡辺靖彦 (龍谷大)
P2-7 日本語格解析において問題となり得る諸現象の定量的分析
○花岡洋輝, 松崎拓也 (東大), 宮尾祐介 (NII), 辻井潤一 (東大)
P2-23 公的文書に対する「やさしい日本語」換言辞書作成のための調査
○杢真奈見, 山本和英 (長岡技科大)


>3/9(水), 本会議第2日
A2:言語学(1)   3月9日(水) 09:00-11:50 A1-101教室  座長: 黒田航 (京工芸繊大/早大)
A2-6 語を構成単位としない統語論に向けて: パターン束モデルを用いた文構造記述の理論と応用
○吉川正人 (慶大/学振)

B2:テーマセッション4: Twitterと言語処理   3月9日(水) 09:00-11:50 A2-101教室  座長: 東中竜一郎 (NTT)
B2-2 マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案
○向井友宏, 黒澤義明, 目良和也, 竹澤寿幸 (広島市立大)
B2-3 Twitterからの個人の行動に起因するトラブル予測システムの試作
○隅田飛鳥, 服部元, 小野智弘 (KDDI)
B2-4 マイクロブログサービスの返信行動に着目した投稿及びユーザの分類
○黒澤義明, 竹澤寿幸 (広島市立大)
B2-6 Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出
○鈴木啓太, 新美礼彦 (未来大)
パネル討論: Twitter情報を活用したサービスの現状と課題
パネリスト 大角知孝 (NTTコミュニケーションズ) ,岡野原大輔 (PFI),榊剛史(東大),辻村浩(沖電気),横田真俊(Twitter解説書著者),西谷智広(Twitter研究会)

C2:文書分類・要約   3月9日(水) 09:00-11:50 A1-201教室  座長: 高村大也 (東工大)
C2-2 WEB上の言語資源に基づく国会議員の分類
○東宏一, 橋本悠, 掛谷英紀 (筑波大)
C2-6 文書内の事象を対象にした潜在的トピック抽出手法の提案とその応用
○北島理沙, 小林一郎 (お茶大)
C2-7 直接調停要約自動生成システムHERMeSの実装と性能評価
○中野正寛, 渋木英潔, 宮崎林太郎, 石下円香, 永井隆広, 森辰則 (横浜国大)
C2-8 ラベル伝播による他言語資源の利用と転移学習を用いた重要文抽出システム
○天野禎章, 横山晶一 (山形大)

D2:情報抽出(1)   3月9日(水) 09:00-11:50 A2-201教室  座長: 関洋平 (筑波大)
D2-1 自動獲得した上位下位関係の詳細化
○山田一郎, 橋本力, 呉鍾勲, 鳥澤健太郎 (NICT), 黒田航 (京工繊大/早大), De Saeger Stijn, 土田正明, 風間淳一 (NICT)
D2-2 共起語グラフのクラスタリングによる単語の多義性抽出
○鏑木雄太, 古宮嘉那子, 小谷善行 (東京農工大)
D2-3 レビューからの商品比較表の自動生成
○相川直視 (早大), 山名早人 (早大/NII)
D2-4 複数文にまたがる関係抽出における構文情報の効果
○三浦康秀, 外池昌嗣, 大熊智子, 増市博 (富士ゼロックス), 篠原(山田)恵美子, 荒牧英治, 大江和彦 (東大)
D2-5 地方自治体の例規比較に用いる条文対応表の自動生成
○竹中要一 (阪大), 若尾岳志 (独協大)
D2-6 数式検索のための数式周辺テキストの言語解析手法
○横井啓介 (東大), Nghiem Minh (総研大), 松林優一郎 (NII), 相澤彰子 (東大)

E2:意味解析   3月9日(水) 09:00-11:50 A1-301教室  座長: 乾健太郎 (東北大)
E2-2 動詞と名詞の連想に基づいた換喩解析法の提案
○寺岡丈博, 岡本潤, 石崎俊 (慶大)
E2-4 段階的文脈拡張による多義性解消
○黒川勇輝, 新里圭司, 黒橋禎夫 (京大)

P3:ポスター(3)   3月9日(水) 16:30-18:00 A棟ホール
P3-4 語の共起を効率的に検索できる日本語作文支援システム「なつめ」の紹介
○阿辺川武 (NII), ホドシチェク・ボル, 仁科喜久子 (東工大)
P3-6 作文授業における引用技術習得を支援する手法の提案
○山口昌也 (国語研), 北村雅則 (名古屋学院大)
P3-7 作文支援システムを使った「引用」学習課題の導入と展開
○北村雅則 (名古屋学院大), 山口昌也 (国語研)
P3-8 短答式記述答案の採点支援ツールの開発と評価
○中島功滋 (ベネッセ/CRET)
P3-9 ホームページの多言語化に向けた機械翻訳とコミュニティによる後編集の活用
○相川孝子 (MSR), 井佐原均 (豊橋技科大)
P3-10 汎用アノテーションツールSlate
○Dain Kaplan, 飯田龍, 徳永健伸 (東工大)
P3-13 物語生成システムにおける物語言説機構の開発と評価
○秋元泰介, 小方孝 (岩手県立大)
P3-31 議論熟練者による話し合いの評価に影響を与える言語行動の分析
○水上悦雄 (NICT), 森本郁代 (関西学院大), 大塚裕子 (IBS), 鈴木佳奈 (広島国際大), 柏岡秀紀 (NICT)
P3-32 日本語フレームネットの全文テキストアノテーション: BCCWJへの意味フレーム名付与の試み
○小原京子 (慶大)


>3/10(木), 本会議第3日
A3:言語資源・コーパス   3月10日(木) 9:00-11:50 A1-101教室  座長: 河原大輔 (京大)
A3-2 語彙概念構造による意味役割の形式化と複数役割の割り当て
○松林優一郎, 宮尾祐介, 相澤彰子 (NII)

B3:生成・言い換え   3月10日(木) 9:00-11:50 A2-101教室  座長: 藤田篤 (未来大)
B3-2 発表スライドの構造的・言語的解釈に基づく発話生成
○荒井翔真, 柴田知秀, 黒橋禎夫 (京大)
B3-5 Web上の定義文からの言い換え知識獲得
○橋本力, 鳥澤健太郎, De Saeger, Stijn , 風間淳一 (NICT), 黒橋禎夫 (京大)

C3:情報抽出(2)   3月10日(木) 9:00-11:50 A1-201教室  座長: 風間淳一 (NICT)
C3-2 書評利用のレコメンデーションを目的とする書評検索システムのためのキーワード抽出
○越本和季, 酒井浩之, 増山繁 (豊橋技科大)
C3-8 L1正則化特徴選択に基づく大規模データ・特徴集合に適した半教師あり学習
○鈴木潤, 磯崎秀樹, 永田昌明 (NTT)

D3:機械翻訳(1)   3月10日(木) 9:00-11:50 A2-201教室  座長: 磯崎秀樹 (NTT)
D3-1 階層的モデルを用いた機械翻訳のためのフレーズアライメント
○Neubig, Graham (京大/NICT), 渡辺太郎, 隅田英一郎 (NICT), 森信介, 河原達也 (京大)
D3-4 A Term Translation System Using Hierarchical Phrases and Morphemes
○呉先超, 辻井潤一 (東大)
D3-8 文書文脈を用いた翻訳精度、速度の改善
○大西貴士, 内山将夫, 隅田英一郎 (NICT)

E3:テーマセッション2: 不自然言語処理 枠に収まらない言語表現の処理(1)   3月10日(木) 9:00-11:50 A1-301教室  座長: 村上浩司 (楽天)
E3-3 「不自然言語処理コンテスト」第1回開催報告
○萩原正人 (楽天), 大原一輝 (フリー), 水野貴明 (バイドゥ), 橋本泰一 (東工大), 荒牧英治 (東大), 竹迫良範 (サイボウズ)
E3-4 ウェブからの疾病情報の大規模かつ即時的な抽出手法
○荒牧英治 (東大), 森田瑞樹 (医薬基盤研究所), 篠原(山田)恵美子, 岡瑞起 (東大)
E3-5 データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法
○鈴木徹也 (芝浦工大)
E3-6 感情推定における若者言葉の影響
○松本和幸, 任福継 (徳島大)
E3-7 教師付き外れ値検出による新語義の発見
○新納浩幸, 佐々木稔 (茨城大)
E3-8 定型から逸脱した言語表現の分析
○土屋智行 (京大/学振)

F3:情報検索   3月10日(木) 9:00-11:50 A2-301教室  座長: 鶴岡慶雅 (JAIST)
F3-3 特許の先行技術調査における集合知の循環
○橋田浩一 (産総研), 藤井敦, 岩山真, 橋本泰一 (東工大), 乾孝司 (筑波大), 難波英嗣 (広島市立大)
F3-7 Toward Evidence Search
○Nichols, Eric (東北大), Mizuno, Junta (NAIST), Watanabe, Yotaro, Inui, Kentaro (東北大)
F3-8 共著者ネットワークによる書誌検索の高度化
○野本忠司 (国文研)

A4:語彙・辞書   3月10日(木) 13:00-15:30 A1-101教室  座長: 影浦峡 (東大)
A4-5 オノマトペを言い換える表現の自動収集
○古武泰樹, 佐藤理史, 駒谷和範 (名大)
A4-6 Wikipediaからの大規模な汎用オントロジー構築
○柴木優美 (長岡技科大), 永田昌明 (NTT), 山本和英 (長岡技科大)

B4:対話・文脈処理   3月10日(木) 13:00-15:30 A2-101教室  座長: 駒谷和範 (名大)
B4-1 POMDPを用いた聞き役対話システムの対話制御
○目黒豊美, 東中竜一郎, 南泰浩, 堂坂浩二 (NTT)
B4-2 対話型e-Learningシステムの開発
○峯脇さやか (弓削商船高専), 嶋田和孝, 遠藤勉 (九工大)
B4-3 共通状態と連結学習を用いたHMMによるコールセンタ対話の要約
○東中竜一郎, 南泰浩, 西川仁, 堂坂浩二, 目黒豊美, 小橋川哲, 政瀧浩和, 吉岡理, 高橋敏, 菊井玄一郎 (NTT)
B4-4 コールメモを利用したコールセンタ向け音声対話要約方式の提案
○田村晃裕, 石川開 (NEC)
B4-5 Toward Plan Recognition in Discourse Using Large-Scale Lexical Resources
○Naoya Inoue (東北大/学振), Kentaro Inui (東北大)
B4-6 視線情報を利用した協調作業対話における参照解析
○安原正晃, 飯田龍, 徳永健伸 (東工大)
B4-7 直接照応解析における分野情報および文脈情報の有効性検証
○浜田伸一郎, 齋藤佳美 (東芝ソリューション)

C4:テーマセッション3: 日本語入力における言語処理(1)   3月10日(木) 13:00-15:30 A1-201教室  座長: 鈴木久美 (MSR)
C4-1 病理診断報告書作成のためのオントロジーを利用したテキスト入力支援
○橋本泰一 (東工大), Tam, Wailok (東大), 鷹合基行 (富士ゼロックス), 荒牧英治, 宇於崎宏 (東大), 橋田浩一 (産総研)
C4-5 大規模日本語ブログコーパスにおける言語モデルの構築と評価
○奥野陽, 颯々野学 (ヤフー)

D4:機械翻訳(2)   3月10日(木) 13:00-15:30 A2-201教室  座長: 隅田英一郎 (NICT)
D4-3 二部グラフ上のランダムウォークによる言語横断関連語の抽出手法
○ルディー・レイモンド, 坪井祐太 (日本IBM), 張耀中 (東大), 那須川哲哉 (日本IBM)
D4-4 構造を持った定型表現の自動獲得と機械翻訳での利用
○望月道章, 中澤敏明, 黒橋禎夫 (京大)

E4:テーマセッション2: 不自然言語処理 枠に収まらない言語表現の処理(2)   3月10日(木) 13:00-15:30 A1-301教室  座長: 荒牧英治 (東大)
E4-1 テキストに基づく違法有害記事の削除作業支援方式
○笠原要, 藤野昭典, 永田昌明 (NTT)
E4-4 Web上の多彩な言語表現バリエーションに対応した頑健な形態素解析
勝木健太 (京大), 笹野遼平 (東工大), ○河原大輔, 黒橋禎夫 (京大)
E4-5 大規模添削コーパスを用いた統計的機械翻訳手法による日本語誤り訂正
○水本智也, 小町守, 松本裕治 (NAIST)
E4-7 分布類似度判定における文脈の特徴量の比較と評価法に関する研究
○増山篤志, 梅村恭司, 岡部正幸 (豊橋技科大)

F4:言語学(2)   3月10日(木) 13:00-15:30 A2-301教室  座長: 小磯花絵 (国語研)
F4-4 比喩表現に属性が明示された場合の比喩性に与える影響とコンピュータモデルの検討
○田添丈博 (鈴鹿高専), 椎野努 (愛工大)

A5:教育応用   3月10日(木) 15:50-18:20 A1-101教室  座長: 田中久美子 (東大)
A5-1 学習指導要領に立脚した児童作文自動点検システムの実現
○藤田彬, 田村直良 (横浜国大)
A5-3 翻訳教育向け「みんなの翻訳」
○影浦峡 (東大), Thomas, Martin (Leeds大), 阿辺川武 (NII), 内山将夫, 隅田英一郎 (NICT), Hartley, Anthony (Leeds大)

B5:構文解析   3月10日(木) 15:50-18:20 A2-101教室  座長: 渡邉陽太郎 (東北大)
B5-4 木構造に基づく決定的係り受け解析
○北川浩太郎, 田中久美子 (東大)
B5-6 ベイズ学習による木接合文法獲得
○進藤裕之, 藤野昭典, 永田昌明 (NTT)

C5:テーマセッション3: 日本語入力における言語処理(2)   3月10日(木) 15:50-18:20 A1-201教室  座長: 工藤拓 (グーグル)
C5-4 頻出文脈に基づく分野依存入力支援
○海野裕也, 坪井祐太 (日本IBM)

E5:テーマセッション2: 不自然言語処理 枠に収まらない言語表現の処理(3)   3月10日(木) 15:50-18:20 A1-301教室  座長: 竹迫良範 (サイボウズ)
E5-1 並列疑似エラー補正法に基づく「破格」な言語表現の(疑似)解釈
○黒田航 (京工繊大/早大)
E5-2 誤字脱字や伏字を許容する近似辞書照合技術
○齋藤邦子, 今村賢治, 松尾義博, 菊井玄一郎 (NTT)
E5-3 評判情報の検索における隠語の生成と順位付け
○太田裕貴, 藤井敦 (東工大)


>3/11(金), 併設ワークショップ
ワークショップ: 「自然言語処理における企業と大学と学生の関係」
ホームページ: http://nlp.cs.nyu.edu/gengo2011ws