NLP2011, 本会議1日目終了(セッションB1: Web応用)
NLP2011、本会議1日目(一般講演セッション1つ+招待講演1つ+ポスターセッション2つ)。
これ書いてる時点ではまだ終了してないですが(ごめんなさい)、
ポスターセッションで見たかったものは見て終わったので、今日のまとめ。
例によって青字は個人的な疑問等、赤字は会場質疑応答です。
目次
・B1: Web応用
・質問で不足している情報を回答で指摘されたユーザが再投稿した質問の調査
・ブログにおけるコメント先の解析
・大規模Web情報分析のための分析対象ページの段階的選択
・情報分析システムWISDOMのユーザ評価とその分析
・言論マップ生成技術の現状と課題
・Web文書の時間・論理関係分析に基づく情報信頼性判断支援システムの開発と実証実験
・クエリログの時系列情報に基づくキーワード修正リスト生成手法
・招待講演1: ゲノムを読む、榊 佳之 氏(豊橋技術科学大学学長)
・P1: ポスター(1)
・P2: ポスター(2)
B1: Web応用
B1-1 質問で不足している情報を回答で指摘されたユーザが再投稿した質問の調査 (pp.33-36)
○小島正裕, 水野友之, 渡辺靖彦, 岡田至弘 (龍谷大)情報が不足している質問 ・不足している情報の指摘 ・指摘を利用した質問作成支援システム(最終目標) →今回は調査報告
直接的に解決する回答ではないが、 解決のための状況確認を促すコメントの割合が多い。 →さらにその中でも 「質問者がそもそも知らなかった情報」よりも 「知っていたが記述していなかった」割合の方が多い。 →質問することで指摘すること自体で良質の質問を行えるのではないか。
Q: SVMで何かを学習するようだけど、入力は質問文だとして出力は何だろう。 Q: 質問カテゴリを「パソコン・周辺機器」に絞ったことで「質問での説明 が不十分」になりやすいという傾向が無いか? Q: 「質問での説明が不十分」であることを指摘する際、何が十分でないの かを伝えることが適切かはどのように判断するのだろうか?
会場Q: 今回の事例は、全体の中でどのぐらいの割合なのか。 A: 4,000件/100,000件(多分)。 会場Q: これはシステムが検出した件数だと思うが、coverage は どのぐらいかは調査しているのか。 A: まだしていないが、大凡の傾向としてはこのぐらいだと認識している。 会場Q: 最終的にこの結果をどう使いたいのか。情報が不足している という指摘を自動的にしたいとのことだが、質問する(質問だけ を見る)段階なのか、ペアを見て分かるようにしたいのか。 A: 両方。 会場Q: ペアを見ないと分からないというのでは余り面白く無いの では。回答が無い状況で指摘できるようにはならないのか。 現状のシステムではどうなる? A: 現状ではまだ動いていない。 A: 予想する所はかなりいけている。しかし、不足している情報の 可能性がいろいろあって、どれから出したらユーザに取って便利 なのかというところが良く分からない。良い答えが返っているの はどういうペアの時かという情報から重み付けることで、優先度 を付けることができるだろうと考えている。
B1-2 ブログにおけるコメント先の解析 (pp.37-40)
○津野優佑, 徳久雅人, 村田真樹 (鳥取大)情報収集の際、ブログ記事本体だけでなく、コメント部にも有益な情報がある。 ただし、コメントが何(記事本体or先行コメント)に対する情報かが分からない。 →コメント先の解析 着目点 ・文章内容の類似度 ・ブログ記事の特性(コメント先や相手名を明示する慣習など)利用 ・共通名詞の利用(コメント中の共通名詞) Okapi BM25 によるスコア利用 ・共起語の利用 ・文末表現対の利用(コメント元コメント先の文末部分3文字を利用) e.g., 〜ですか? 〜ですよ
Q: テスト用正解データを人手で作成しているとのことだが、厳密な正解 が判断しづらいケースもありそう。どういう例があったのか。 Q: 複数手法の組み合わせ方を優先順位として決定しているが、重み調整 して利用することはできないのか。
会場Q: コメントにはブログの記事本体へのコメントや、コメント間 コメントもあると思う。今回は本体へのコメントは扱わなかったのか。 A: 今回は本文もブロックの一つとしており、扱っている。 会場Q: 本文はコメントより長いが、その影響は無いのか。 式が変わってくるとか。 A: 文長によってスコアや特徴量が変わるというのは、文長によって 調整してくれるため影響は小さいと思う。
会場Q: 単純に、新しいコメントであれば本文に繋げるといった ナイーブなルールは使用していないのか。 A: 提案としてはあったが、今回は利用していない。 会場Q: 「**さん」といったことを付けないと行けないのは、複雑な 時には効くと思うが、そうじゃない時には前のその人のものという アドホックなものでどのぐらい精度が出るのか。そこがベースライン になりそう。そこでどれぐらいの精度になりそうか。 A: コメントを確認していた限りでは、コメント先を明示していない ことが多いので、さほど差が無いと考えられる。 会場Q: コメントが10も20もある場合は別だが、数個の場合には ほぼ本文じゃないか。 A: コメント2は本文かコメント1へのコメントである場合だけでなく、 全く関係ない話題へのコメントでもあり得る。 会場Q: 問題の難しさを示すためにも、先に示したアドホックな方法で どのぐらい精度が出るかを示した方が良いと思う。
会場Q: コメントや本文を大きく一塊にしているが、塊の粒度を変える ことに対してどのぐらいロバスト性があるか。 A: 発話単位でやっているが、対象としてる文の範囲を帰ることも可能だと思う。 会場Q: リスト順位のトップを変更したケースも試していれば、 その結果についても知りたい。 A: 今回は試していない。
B1-3 大規模Web情報分析のための分析対象ページの段階的選択 (pp.41-44)
○赤峯享 (NICT/NAIST), 加藤義清, 川田拓也, レオン末松豊インティ (NICT), 河原大輔 (京大/NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT)WISDOM「誰が、何を、どう評価/主張しているか」 分析基盤 10億ページ/2億の構文解析済みページ スパムページやカタログページばかりでは有益じゃない →ページ選択が重要 Web検索:検索結果の上位数ページ Web情報分析:上位数百〜数千ページが影響度高い ・品質の高いページ フィルタリング(カタログ、スパムページやduplicateを除外) 重み付きサンプリング(PageRank等) ・更新同期の取れたページ
選択精度を上げるには、メタ情報だけでなくテキスト内容を利用する方が有利。 だが、計算コストが高い。 →仮定:サイト中の一部のページ品質≒サイトの他のページ品質 段階的に選択を行うことでコスト削減。
Q: ページやコンテンツの質に関連しそうな付加情報として、ブログや ツイッター等での「likeやfav」といった付加情報や、delicious等へ の登録等様々な付加情報が増えてきていると思う。このような他ユ ーザが直接的にインタラクションを行った情報を利用することは 困難なのか。
会場Q: 品質の高い、分析に役立ちそうというのと、Webの何を対象 にして分析したいのかに依存しそうだが、罵詈雑言みたいなのも 取りたいということもありそう。どういう立場で役に立つ・立たない というのを考えているのか。 A: 質の良い罵詈雑言があるという段階ではなく、自動生成された duplicate/カタログページをまず取り除きたいというのが第一段階。 会場Q: 結果で示した20〜30%というのはそれに該当するページ? A: 殆ど無駄になるページ。
会場Q: 適格/不適格ページを人間でもある程度判断できたとのこと だが、ケース次第で変わることもあるし、判断のぶれもある。 A: 本当にみんなが低く入れたページは、テキストは含まれているが 2,3文だとか。人によって品質が違うというレベルまでは現れて いない。人によって判断が変わるという部分は、さらに分析後で解決する。
B1-4 情報分析システムWISDOMのユーザ評価とその分析 (pp.45-48)
○川田拓也 (NICT), 赤峯享 (NICT/NAIST), 河原大輔 (京大/NICT), 加藤義清 (NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT), 木俵豊 (NICT)http://ici.wisdom-nict.jp/ 続き発表。WISDOM概要と、その評価について。 Webを利用した意思決定を如何に支援できるか。 意思決定プロセス[Simon 1977]に応じた支援技術の開発 ・新たな行為を必要とする状況の設定 ・可能な行為の代替案の探索・発見 ・その中から選択する過程
Q: 玉石混淆の中から情報を選り分けるというタスクにおいて、Web上の データ以外の知識は利用しているのか? もし利用しているならばど のようなものか? 利用していないならば、Web上のバイアスを避け ることは困難だと思うが、それは問題にならない? Q: 選り分けの支援とは一種の情報推薦に相当すると思うが、ユーザの属性 を考慮すして支援することはできないか。例えば、人の属性毎にどの ような選別をしやすい(することで理解しやすい)形式や、必要とす る項目は限定されているといったことはできないのだろうか。 →多角的総合的に分析した結果を提示することで代替している。 Q: アンケート評価を行っているが、実際に情報収集・分析するのに要する 時間や労力には違いが見られたのか。 →調査時間も計測しているが、厳密には評価していない。調査自体が いい加減な人は評価がばらばらになりがちというのは見られた。
会場Q: アンケート評価一般100人について、意思決定にも色々あると おもうので、ユーザ層を絞って評価してみては。 A: 敢えてユーザ層をばらけさせている。そもそもどういう意思決定が あるかを知りたいということと、層毎に質的な差異があるならそこも 確認したい。
B1-5 言論マップ生成技術の現状と課題 (pp.49-52)
○水野淳太 (NAIST), Eric Nichols, 渡邉陽太郎 (東北大), 村上浩司 (楽天), 松吉俊, 大木環美 (NAIST), 乾健太郎 (東北大), 松本裕治 (NAIST)目的:ユーザの情報信憑性判断を支援 検索された情報を、クエリと意味的関係に基づいて分類し、俯瞰的に表示 同意/対立、根拠、弱対立
言論マップ生成 係り受け解析 述語構造解析 拡張モダリティ解析 局所構造アライメント 関係分類 修辞構造解析
対立関係精度はまだ不十分 海面が上昇する下がる:は認識できる。 海面が上昇する変化しない:は推論が必要。
Q: 同意/対立/弱体率、という視点からトピックを分析しているが、 何故この視点を選んだのか。 Q: 信憑性判断を支援するために多角的な意見を俯瞰的に提示する ことの評価として、絶対的な基準を設定することは困難かと思うが、 それを考慮しても評価方法は妥当か?(ある程度の軸を提示する ことで十分だと判断しやすいという傾向を見ているだけではないのか)
会場Q: アライメントが大事とのことだが、理由の所はそもそも パッセージ検索で違うのが取れてしまう? A: 述語の対立が大変。 会場Q: ユーザ評価について、悪い評価をしたのはどういう例があったか。 A: 基本的には高評価で、悪い評価をしたのは精度やインタフェース への指摘、ソースが欲しいといったコメントを頂いた。
会場Q: システムのスピードはどのぐらいか。 A: 検索対象文をどのぐらい取ってくるかにもよるが、1クエリで2〜3分。
会場Q: 対立意見を取ってくる所の評価が低いようだが、モダリティ解析が困難? A: 基本的にはモダリティが困難だが、そもそも述語の対立語彙知識が 他と比較して少ない。あるドメインでは対立しているが違うドメイン ではそうでもない、こともある。
B1-6 Web文書の時間・論理関係分析に基づく情報信頼性判断支援システムの開発と実証実験 (pp.53-56)
○岡嶋穣, 河合剛巨, 中澤聡 (NEC), 村上浩司 (楽天), 松吉俊, 水野淳太 (NAIST), エリック・ニコルズ, 渡邉陽太郎, 乾健太郎 (東北大), 渋木英潔, 中野正寛, 宮崎林太郎, 石下円香, 森辰則 (横浜国大)WISDOMと相補的なシステム。 情報信頼性判断を支援するシステムの開発と実証実験。 「どうしてその意見を言っているのか」 根拠/理由/切っ掛け/etc.
根拠→言論マップ 異なる意見が生じる理由→調停要約 意見を変えた切っ掛け→意見変化イベント抽出
Q: アンケート評価しているが、ある程度満足できれば高評価するのは 当然で、システムとして適切な結果を提示出来ているかの評価とし ては不十分では?(そもそも絶対的な正解がある問題では無いと思 うが、何かしら客観的な正解を用意できないか?)
会場Q: トピック毎に分散があることが何を主張したいのか良く分から ない。調べ方が難しい?価値判断しづらい? A: その2つの側面があり、調べ方が難しく既存システムだと何波ターン かクエリを試す必要がある。価値判断については、自分は賛成だから 賛成だけを見たい、若しくは逆に反対意見だけを見たい、といった ことが考えられる。 会場Q: 提案システムと既存システムとで分散が異なるというのは、 ユーザの行動が違うのか? A: それぞれのユーザが賛成意見だけを見たい意見だった場合反対の意見 が低くなることが考えられるが、どちらも網羅的に提示しているため 分散が少なかったと考えられる。
会場Q: 分散分析してみた? A: 統計的優位性についてはまだちゃんとはやっていない。 会場Q: 男女性別が影響しているか、年齢が影響しているかとか見れる かもしれない。 A: 正確な分析はしていないが、世代や職業については調べてた範囲では 大きな差は見られなかった。
会場Q: 大きなモジュールとして3つあるが、これで十分なのか、まだ 不足していて何か追加が必要なものがあるのか。 A: 難しい。この他にも画像系の処理しているグループもある。 会場Q: 自由回答で「こういうのが欲しい」というのは無かった? A: 発信情報の信頼性ソースが多く、他には特に無かった。
B1-7 クエリログの時系列情報に基づくキーワード修正リスト生成手法 (pp.57-60)
○平手勇宇, 竹中孝真 (楽天)キーワード修正アルゴリズム:もしかして検索。 文字列距離で多くはうまくいくが、例外もある。 「桃らー」→「辛そうで辛くない少し辛いラー油」 →文字列上の距離が大きいキーワードに対して、クエリ修正行動を利用。
Q: 未知語抽出や同定と同等課題?
会場Q: Googleでもクエリの書き換えということでコメント。適合率80% は甘くて、世の中では99%じゃないとダメ。極端な事例だが訴えられる こともある。書き換えパターンを拾っていくと、言語モデルが小さい ので類似パターンが多く見つかる。一つ一つのインスタンスを見るの ではなく、同じような書き換えを行っているといった全体を見れば、 精度も高くなると思う。 A: 人手でチェック済ませた後で登録するので、この段階では80%ライン で多めに出した。追加した後のクエリログ見ることで、クエリがクリック されなければ違うという判断もできるかと思う。キーワード間距離を 拡張する上でコメントについても検討したい。
会場Q: 読みが々で違うとか、タイポの割合はどのぐらいか。 A: 感覚としては3割ぐらい。残り3割(?)は商品名メーカー名。
招待講演1: 「ゲノムを読む」講演者 榊佳之 氏(豊橋技術科学大学学長)当初は個別に「どこそこに遺伝子を発見した」が行われ、 全体が見えないままに試行錯誤的に着手されていた。 このままでは拉致があかないので、 ・国際的に協力し合い、 ・各国で責任を持って取り組む箇所を分担し、 ・解読したゲノムを無償公開 する形で取り組んだ。(すばらしい!)
サンプル調整→配列決定→データ処理・編集→サンプル調整の繰り返し。 各プロセスで異なる長所が求められる。 →大規模センターではデータ生産の効率性を高める工夫
ヒトゲノム解読のレベル ・何処に何が書かれているか。 これ見ただけでは意味付けがサッパリ分からない。 (1)ゲノムの基本要素を見つける(遺伝子/発言制御エレメント/その他) ・人間だけ見てると分からないが、 例えばハエとかマウスとか、人間以外と比較することで分かることも多い。 →比較ゲノム解析 割と共通している部分が多い。 脊椎動物における制御配列が浮かび上がってきた。 (2)基本要素の機能を知る。 遺伝学的な手法(正遺伝学/逆遺伝学) 遺伝学:遺伝子と表現型の関係を推論する科学 遺伝要因/環境要因 →個人差問題 相同性からの推定(相関解析法) 個人差10%なら該当件数数万。 1%なら該当件数が数千万単位。 何千万分布の偏りはどうなっているか。 →例:脳梗塞/糖尿病になりやすい関連遺伝子は? ただし要因自体が多岐にわたるので、特定の人達を集めて観察し、 リスクファクターを特定するといった工夫が不可欠。また、 本当に直接要因なのかといった、因果関係の調査も必要。 相互関係からの推定 (3)遺伝子制御システムを理解する 階層性 正と負の制御 頑健性 スケール・フリーなネットワーク構造 (4)これらはまだ静止画。本当の生物は動画。ダイナミックな関係図を描く必要がある。 システム・バイオロジー(現在盛ん)
ヒトゲノムが全て読めたことで、 個別事象を全体との関連で捉えることができるようになった。 テクノロジーの発展 30億塩基の収集に、2002年で1200日程度かかったのが、 2008年には2日、2010年には数分でできるようになってきた。 →全日本人のゲノムデータも集積可能な段階に 必要に応じて個々の解析を検討することも視野に。 →代謝経路予測 Synthetic Genomics 最適のゲノムを構成し、目的に合った最適な生物を構成して 利用することもできるのではないか。 →細菌ゲノム完全合成の例
会場Q: 経路が良く分かるという話について。経路が分かるためには、 かなり多くのタスクが集約されていると思う。NLPにおける言葉に 置き換えるとそこは並大抵の努力ではないように見える。これは どうして可能になったのか。 A: 基本的には物質を分解する経路。徹底的に遺伝子を調べられて、 基本骨格がある。それからの相同性、相反性、既存経路との関係性 から求めていった。基本骨格、例えば大腸菌とかがあり、そこから 積み重ねていった。
会場Q: DNSシーケンスやる時には馬力のある人とか様々な人が必要 になるようだが、NLPでもそうだと思える。そこをうまくやる というのは、眼力を持った人がやる? A: 眼力もあると思うが、まずは3つのプロセスともやらせる。その上で 向き不向きを見ていく。全体を理解してもらうのが大切。パートだけ 入ると何のためにやっているのかが分からない。
P1: ポスター(1)P1-12 意見の重要度と客観的補足情報を考慮したレビュー要約 (pp.204-207)
○唯野良介, 嶋田和孝, 遠藤勉 (九工大) 「属性毎に数値評価+自由記述文」で構成されるレビュー群を要約するという話。 【重要語(TFIDF)+分類(クラスタリング)+集約(セントロイド文選択)】 に属性毎の数値評価も組み合わせたやつは評価自体の揺れもあって あまり精度が高くならなかったとのこと。 数値評価を除いた方法で重要文選択するところは比較的良かったっぽい。P1-13 直接調停要約自動生成システムHERMeSの言論マップとの連携 (pp.208-211)
○石下円香, 渋木英潔, 中野正寛, 宮崎林太郎, 永井隆広, 森辰則 (横浜国大) ある2つの対立意見について、実は対立しているのは異なる軸であって、 そこを考慮した要約文(直接調停要約)を自動生成しようという話。 解析対象を「全体集合:肯定文書群:否定文書群」の3パターンに分けて、 各々で特徴語抽出。単純な頻度ではうまくいかないが、ランキング+差分 で見るとうまくいくケースが見られてきた(いかないケースもあるが)。 ということらしい。P1-14 直接調停要約自動生成システムHERMeSの対比表現を用いた精度向上 (pp.212-215)
○永井隆広, 渋木英潔, 中野正寛, 石下円香, 宮崎林太郎, 森辰則 (横浜国大) 精度を高めるために対比表現 接続詞:だが、しかし、、、 接続助詞:けれど その他:ではなく、逆に、、 を加味してフィルタリング処理で、ある程度効果があったらしい。P1-16 テキストの内容を表す記述要素の自動生成手法の検討 (pp.220-223)
○久保木武承, 山本和英 (長岡技科大) 単にキーワード検索するだけだと提示される文書群が欲しいページなのか 分からない。それを補助する目的で「テキスト内容を表す記述要素」を 定義し、それを自動生成+自動付与する基礎実験をしてみた、という話。 スニペットや要約とはまた違った視点という意味で面白い。P1-19 Twitterからの自動車の不具合情報抽出 (pp.232-235)
○北林智治, 酒井浩之, 増山繁 (豊橋技科大) (1)該当文が不要か否か、(2)Twitter特有の言い回しか、 (3)文に含まれる単語対は何か、(4)抽出条件に合致するか、 といった工程を経て情報抽出するという話。 綺麗に整えたアプローチ。
P2: ポスター(2)P2-1 共起要素のクラスタリングを用いた分布類似度計算 (pp.292-295)
○大平真一, 山本和英 (長岡技科大) 単語共起を利用して「単語同士の類似度」を求めましょうという話。 良くありそうな話だとは思うけど、ノイズ除去するための工夫を加える ことで先行研究よりエラー低減したらしい。P2-5 述部機能表現の意味ラベルタガー (pp.308-311)
○今村賢治, 泉朋子, 菊井玄一郎 (NTT), 佐藤理史 (名大) 範囲同定と曖昧性解消を同時にやりましょうというアプローチが面白い。 フレーズラティス(表層形+意味ラベルをセットにしてラティス 構造として扱う)を構築して、最尤パス探索問題に落とし込む。 素性には表層形ベースのN-gram素性と、ラティス周辺情報としての マッピング素性2種類の合計3種類で構成しているっぽい。P2-7 日本語格解析において問題となり得る諸現象の定量的分析 (pp.316-319)
○花岡洋輝, 松崎拓也 (東大), 宮尾祐介 (NII), 辻井潤一 (東大) 「深い構文解析」をするための定量的分析。超お疲れさまです。 項-述語構造が構文木的に遠い所にある関係が取り難いよね、 それをどうにかしようというところへのワンステップっぽい。 spainホップ数という距離を導入することでどのぐらいcoverage が見込めるかを大規模に調査したらしい。