NAL’s blog @ 琉球大学情報工学科

Posts Tagged ‘イベントレポート’

NLP2011, 本会議3日目終了（セッションE3:不自然言語処理　枠に収まらない言語表現の処理(1)、B4:対話・文脈処理、A5:教育応用）

木曜日, 3月 10th, 2011

NLP2011、本会議3日目（一般講演セッション3つ）。
本会議最終日は、
　E3:不自然言語処理　枠に収まらない言語表現の処理(1)
　B4:対話・文脈処理
　A5:教育応用
に参加してきました。

夜は交流行事があるようなのですが、力つきて見送ってしまいました。明日もまだあるし。というか皆さんほんと体力ありますね（汗）

三日目にしてようやく「素性」の大切さというか、高精度を実現しようとすると苦労するポイントが似通ってくるんだなというのが分かってきました。それぐらい、多くの発表で出てくる話題。人間ってどうやって素性を捉えているんでしょうね。

目次
・E3:不自然言語処理　枠に収まらない言語表現の処理(1)
　・文頭固定法による効率的な回文生成
　・日本語常用漢字熟語の選好変化と自然言語処理
　・「不自然言語処理コンテスト」第１回開催報告
　・ウェブからの疾病情報の大規模かつ即時的な抽出手法
　・データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法
　・感情推定における若者言葉の影響
　・教師付き外れ値検出による新語義の発見
　・定型から逸脱した言語表現の分析

・B4:対話・文脈処理
　・POMDPを用いた聞き役対話システムの対話制御
　・対話型e-Learningシステムの開発
　・共通状態と連結学習を用いたHMMによるコールセンタ対話の要約
　・コールメモを利用したコールセンタ向け音声対話要約方式の提案
　・Toward Plan Recognition in Discourse Using Large-Scale Lexical Resources
　・視線情報を利用した協調作業対話における参照解析
　・直接照応解析における分野情報および文脈情報の有効性検証

・A5:教育応用
　・学習指導要領に立脚した児童作文自動点検システムの実現
　・非日本語母国話者の作成するシステム開発文書を対象とした助詞の誤用判定
　・翻訳教育向け「みんなの翻訳」
　・Stativity判定に基づいた時制誤り検出
　・最大クリーク探索に基づく特許検索履歴の統合
　・テレビスポーツ番組におけるリアルタイム字幕の特徴





E3:不自然言語処理　枠に収まらない言語表現の処理(1) 

3月10日(木) 9:00-11:50　A1-301教室　　座長: 村上浩司 (楽天) 

E3-1 文頭固定法による効率的な回文生成 (pp.826-829)

○鈴木啓輔, 佐藤理史, 駒谷和範 (名大)

回文条件3つ
　語順＋文法＋意味
　機械での判断難易度：語順＜文法(文節内文法+係り受けチェック)＜意味
　　語順＋文節内文法までのチェックを行う

回文条件1のために、網羅的生成では時間がかかりすぎる
　折り返し固定法→文頭固定法（シード文節を文頭文節にする）
　　初期状態数が減る＋初期状態での不足文字列が現れ難い
　　　文節数3: 21時間→42分

文節集合のクリーニング
　JUMAN形態素辞書から読み2文字以下の語構成要素を人手で削除
　コーパス対応
　→生成数・生成時間が1/3に、高精度で生成できた
　　JUMANで「罪」を常に「ざい」と読んでしまう等で生成できない回文もあった


Q: 直接的に何に利用できるか想像つかないけど、「お遊び」を解析すること
　で得られる知見が間接的に応用できることはありえそう。どういうものが
　あるだろう。。



会場Q: (1)折り返し固定法と文頭固定法とで良い回文生成という点でどういう
　違いがあるか。(2)多くの時間がかかるが、アルゴリズムやデータの持ち方
　についてどのぐらい高速になったのか。
A: (1)全文生成なので同じ。(2)いろいろ工夫していたがこれまでは劇的な
　改善には結びつかなかった。今回の手法で初めて大幅に改善できた。

会場Q: 今後の課題について、生成候補を文法や意味的に絞り込むようだが、
　単語の言語モデル等を考慮して自然な文にすると想像するが、最初の段階
　でランキングするといったことは考えられるか。
A: 係り受けチェックや意味チェックは動的にやっていきたいと考えている。

会場Q: 回文は楽しいと思うが、3文節ぐらいだとつまらないように思う。
　人が頑張ると持ってできそう。長くなる程人間にはできなくなると思うので、
　生成した回文を公開して欲しい。
A: まだ公開していないが、ちゃんとチェックしたら公開できるようにしたいと思う。






E3-2 日本語常用漢字熟語の選好変化と自然言語処理 (pp.830-833)

○砂岡和子 (早大), 羅鳳珠 (台湾元智大)

中国台湾香港との共同研究。
不自然な言語をどう扱うかというより、教育という観点から、
発話される言語そのものをどう扱うかということについて取り組んでいる。

日本人中国語学習者がどの程度認知しているか
　四字熟語、故事成語の計328語が対象
　小学生対象時には、一部をひらがなに置き換えて実施
　　半数以上が認知できない慣用句もあり
　　　親子関係、生活環境の変化
　　若年層の慣用句の誤用は年々増加傾向
　　情報収集はネット経由が過半数になりつつある
　　　言葉の意味やニュアンスが変わる
　　入力ソフトで出てきた候補を選んでしまう

言語資源の階層
　子供の言語→地域言語→広域言語→グローバル言語
　音声言語→文字言語
　インフォーマル言語→フォーマル言語


Q: ネット経由での情報収集が増えると、言葉の意味やニュアンスが
　変わりやすくなる？　身内用語（用例）が増えるということかしら。



会場Q: 故事成語だと時代毎に変化がありそう。それらを複数登録すべきなのか。
A: どちらもありえる。両方併記の上、意味を解説するという方針もあると思う。

登壇者Q: 言語政策そのものには関心があるのか？
A: Google 日本語入力作っているが、正しい日本語入力をしたいという人に
　対応できるように作りたいと考えている。






E3-3 「不自然言語処理コンテスト」第１回開催報告 (pp.834-837)

○萩原正人 (楽天), 大原一輝 (フリー), 水野貴明 (バイドゥ), 橋本泰一 (東工大), 荒牧英治 (東大), 竹迫良範 (サイボウズ)

背景
　ノイズの存在
　実データは「(綺麗な)文法的な言語表現」の前提が崩れる

不自然な言語現象
　変則的な固有表現・未知語：モーニング娘。せきじゃに
　口語表現・オノマトペ・新語：本田△
　異表記・表記揺れ・略語等：ふいんき（なぜか変換できない） kwsk ギャル文字
　顔文字・AA・絵文字
　スパム検出、不正検出
　スペル訂正
　etc.

不自然言語処理コンテスト
　お題「不自然言語を使ったコミュニケーションを豊かにするサービスや作品、
　　　　プログラムなどを作ること」
　発表形式・形態は自由
　モバイルWebの形態素nグラム統計を公開
　　絵文字を形態素として含む
　　キャリア別
　　MeCab+IPADicにより解析

受賞作品紹介
　グランプリ「Soramegraph」
　　Tweetのなんとかをなんとかに空目した
　　→空目した関係を可視化
　準グランプリ「誤字ェネレータ」
　　ワザと類似した誤字に変換
　　画像の類似度を測って、割と真面目。
　審査員特別賞「感情のこもった返答テンプレ生成君」
　　例：テンション高いテンプレ（近いもの）を利用
　　「飲み会行きましょう」→「是非行きましょう！」

LT賞「ケンブッリジ大学」
　検索避けのため不自然な言語を使うという現象
　ただし、書きづらいし、読みづらい→コミュニケーションが非活性化
　→ケンリブッジ大学
　　文字列を画像化
　　文字順番は割とばらばらでも読める
　　「こんにちは！不自然言語処理セッションへようこそ！」
　　→「こんちには！不自然言語処理セシッョンへようこそ！」
　単にゴミとして扱うのではなく、親密度として扱うと面白いのでは。

応募作品総評
　作品傾向：絵文字挿入や不自然なことばに書き換えるもの
　Perl, Ruby, Python などのLLでの実装



Q: 「単にゴミとして扱うのではなく、親密度として扱うと面白いのでは」
　という視点が面白い！目的によってどう扱うかはちゃんと検討しないとね。



会場Q: 日本語以外にも、他の言語でもやり始められていることなのか。
A: 英語ではノイジーテキストを処理しようというワークショップが開催
　されている。他言語でもあると思うが、英語以外では把握していない。
会場Q: ワザと不自然言語に変換するというのは他言語でもあるのか。
A: 絵文字やギャル文字の文化は、把握している限りでは日本語で文化が
　進化。表現しやすいというのもあると思うが、既に文化として根付い
　ているのは日本語ぐらい。

会場Q: 境界はあるのか。
A: グレーな所が多いと思う。AKB48がイレギュラーとか簡単に断じる
　ことができる、そもそもどう定めるべきかから考える必要があると思う。






E3-4 ウェブからの疾病情報の大規模かつ即時的な抽出手法 (pp.838-841)

○荒牧英治 (東大), 森田瑞樹 (医薬基盤研究所), 篠原（山田）恵美子, 岡瑞起 (東大)

例：カゼミル
調査集計には時間がかかり、集計後には既に蔓延していることがありえる。
Twitterで検索クエリを人手で準備し収集
　「風邪」→風邪、熱、インフルエンザ
　　ただし実際に流行している訳ではなく噂としての流行も拾ってしまう
　「ひきそう」→願望／予防はフィルタリング
　動物の症状や誤字→フィルタリング

学習器による事実／非事実判定≒スパム判定
　内容（命題）の妥当性＋モダリティの妥当性
　条件毎にコーパスを作成し、2種類の判定器を構築
　　命題とモダリティ両者が正しいなら事実クラス
　　周辺語のBOW(window size=6が最も良かった)
　　ベースラインより若干改善するが、タスク毎に差もあり要調査
　　SVM以外も試してみたが比較的どれも良く、一番良かったのはNaiveBayse
　どの程度、現実を予測できるのか
　　国立感染症情報センターの報告との相関係数
　　2008年、Googleより提案手法が若干良い結果。
　　2009年夏、Twitterが噂に反応しやすいのか、悪い結果に。
　　ピーク前後で比較すると、前は過剰反応する傾向あり。
　　その部分ではGoogleより傾向を取りやすい。


Q: 噂センサーとして、流行前兆についてヒットしやすい点を、単純に「命題＋
　モダリティ」という点で学習（フィルタリング）してもあまりうまくいかない
　という結果だと思うけど、これ、人間でもうまく判断できない問題設定
　（かなりタフなタスク）だったり？　何を根拠に信じるかというのは
　その人の環境要因が大きく作用する面もあるだろうし、内面的な要因
　が強い場合もあるだろうし。うーん。。



会場Q: ツイッターをセンサーとしてみるのは面白い。niftyでも花粉症で
　似たような話をされていた。センサーとして考えると感度や地方差がある。
　関西では花粉との相関が低いらしい。理由は良く分からない。
A: 花粉症も一緒にやっており、spin out してやっている。アイデアは今の所
　まだないので、何かあれば。

会場Q: モダリティについて、人に直接確認はされたのか。
A: 現状の技術でリーズナブルだと思う。

会場Q: 不自然言語処理のセッションとして、言語処理をキチンとやった
　場合と統計ベースとの比較はしているのか。係り受け解析とかやるより
　統計解析の方が良かったのか。
A: ツイッターの場合には構文解析精度が落ちると予想し、今回は試していない。

会場Q: 文字列や文末を使うというのは。
A: 文末だけ別に加える等もできそうで、興味深い。

会場Q: ピーク前後といったことを考慮した数理モデルを用いた方が、
　より精度が高くなるのでは。
A: 考えてみたいと思います。






E3-5 データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法 (pp.842-845)

○鈴木徹也 (芝浦工大)

テキストアート（アスキーアート）の抽出
　行指向（複数行で構成された行単位のもの）のテキストアートを扱う
　テキストアート識別法
　テキストアート抽出法（範囲を判定）
　空白の取り扱い
　　全角半角が混在。視覚的には空白だが何も無い箇所もある。
　　→空白の正規化手法を確認したい

言語に依存しないテキストアート抽出法
　辞書や文字出現頻度を用いない
　テキストアートらしさ
　利用する属性
　　ランレングス符号化による圧縮率
　　行数
　　文字列長

抽出概要
　候補範囲の決定→窓内のテキストについて識別することで範囲決定
　機械学習c4.5で識別
　正規化3種類+正規化無しの4パターンを比較
　　半角スペース統一／AA右側に不足分追加／AA左側を削除
　


Q: テキストアートって何らかの生成システム使ってることが多いと思う
　（多分）のだけど、いくつかの生成システム自体の入出力特性を見る
　ことで「テキストアートらしさ」を傾向として捉えることできたり
　しないのかしら。



会場Q: 窓をスライドさせてテキストアートらしさを判定しているようだが、
　アートによっては左にもキャラクタや何かしらおいてることがあるが、
　一部分に窓を設定することはできるか。
A: 今の所考えていない。圧縮率を見ようとするとちょっと困難。

会場Q: どういうのが取れない、というのはあるか。ざっと見て取れるかなと
　思ったが、逆に取れないものがあるのか。
A: 実験のデータでは割と取れているが、2chとかに適用すると取れないのが多い。
　数式とか。

会場Q: 目標は何か。取った後で何をする？
A: テキストアートの範囲だけでなく、予めテキストアートDBを作っておいた
　ものと比較してどれに近いか、といったことを考えている。






E3-6 感情推定における若者言葉の影響 (pp.846-849)

○松本和幸, 任福継 (徳島大)

くだけた口語表現、多様な新しい表現（若者言葉など）
テキストからの感情推定
　若者言葉を既知語に変換する事例があるが、
　元語が必須で、かつ変換することで微妙な意味の変化が失われる可能性。
　→そのままの形で感情推定する

問題点
　多くは未知語で正しく形態素解析できない事が多い
　若者言葉感情コーパス（WKEC）を構築
　　コーパス分析するとそれなりに感情推定できる傾向がありそう

若者言葉を素性にした場合とそうでない場合とを比較
　ベースラインを平均14.9%上回る精度
　SVM vs. NB -> NBが高い


Q: 「若者言葉を素性にしない場合」というのは形態素解析失敗結果を
　そのまま素性にした場合？ N-gram素性とどっちが良いのかな。



会場Q: 若者言葉感情コーパスに関して。(1)作業者2名は若者だったんでしょうか。
　(2)そのコーパスを公開する予定があるか。
A: (1)私自身＋学生。(2)公開したいと思うが、個人名が多く入ってたりするため、
　整理してからの予定。

会場Q: 若者言葉が入っていることを検出する際、mecab辞書として登録した？
　別処理で対応？
A: コーパスに付与している若者言葉をそのまま素性とした。誤り分割結果に
　ついて観察した結果、形態素解析結果は使っていない。

会場Q: 感情を13種類としたのは何故？
A: 心理学での分類を考慮しつつ、増やしている。

会場Q: クラスが増える程当らなくなる、一致しなくなると思う。例えば怒りと
　嫌悪は近いとかあるのでは。
A: その通りで、人によっては怒りと捉えたりという差異が見られた。
　タグ付与者は別々に作業した。

会場Q: 若者言葉に感情表現が多く含まれているというデータは何かしら
　あるのか。そうでないと、今回は単にそこにタグを付与したから
　うまくいったという結果でしかないと思う。
A: そういうデータは今の所ない。
会場Q: そこの検証をしないと、若者言葉に着目した方が良いという
　根拠としては不十分では。
A: その通りで、今後分析していきたい。







E3-7 教師付き外れ値検出による新語義の発見 (pp.850-853)

○新納浩幸, 佐々木稔 (茨城大)

対象単語の用例集から、その単語が新語義となっている用例を検出したい。
　辞書の拡張、管理。
　仮説：新語義は用例集内の「外れ値」になっているだろう
　→外れ値検出 LOF(Local Outlier Factor)

大きく外れている値だけでなく、近い外れ値も取りたい。
　単純は外れ値ではない。
　新語義の場合は定義可能なので「教室付き」外れ値検出
　識別の信頼度は無益でクラスタまでの距離を考慮する必要あり
　　教師付きLOF＋LOF値の大きい上位を対象
　　教師データがあってもクラスタ分布が未知。マハラノビス距離は意味が無い。
　　距離だけでなく分散も必要
　　→重心を利用した外れ値の度合い

実験
　SemEval-2 日本語WSDの48単語
　与えられた語義に該当しないものもある
　2400用例中16用例が新語義
　　F値: LOF=LOF+OneClassSVM<OneClassSVM<教師付きLOF<提案手法
　　基本的に低い
　誤検出の原因
　　特異用例（誤り、専門用語）：「そんな時間必要ないけど」
　　書き誤りに近いもの：「私が子供産んだとき」
　　距離の差がほぼ同等
　　パラメータの問題


Q: クラスタリング（ベクトルやクラスタ間類似度）じゃなくて、
　別のアプローチが考えられないのかしら。教師データを設定
　しやすいというのは大きなメリットだと思うし。



会場Q: 使ってる素性は？
A: WSDで使う一般的な素性。
会場Q: そうすると、未検出が多い場合にはその素性が役に立たないのか、
　距離計算の方が問題？
A: 素性の方が問題。多分、無理なんじゃないかと。素性が悪いと距離も悪くなる。
　今回の用例では偏りのあるタスク過ぎるというのもあるかしれない。







E3-8 定型から逸脱した言語表現の分析 (pp.854-857)

○土屋智行 (京大/学振)

定型とは
　複数の語が様々な組み合わせで慣習化し、定着したもの。
　あらゆる語のあらゆる組み合わせが存在
　　字義的な意味と異なる場合、解釈すら難しい場合（手を焼く）
　定型は頻繁に破られる
　　例：「鬼に金棒　弁慶に薙刀　ローソンにATM」
　　→前段無くても意味は分かる。
　　　人は、逸脱表現の「元表現が何なのか」を特定し、
　　　「意味的な差異」を理解できる
　　　→定型の逸脱表調査とその分析

どれだけ逸脱しているか（逸脱バリエーション）
元形式がどれだけ保持されているか（定型的な表現の特徴）
　「NP1にNP2なし」の表現4例
　Sketch EngineのJpWaCコーパス（ウェブコーパス）から抽出
　　元表現より逸脱表現が多いものも、逆傾向もあり。
　　Pattern Lattice Builder (PLB) で分析
　　　組み合わせ抽出ツール
　　　パターン生成し、説明力のある接続ノード数を調査

様々な逸脱用法があるが、 話者にとって逸脱しやすいパターンとそうでないパターンに偏りがある。
元の表現を喚起しやすいパターン等への分析へ。



Q: 「定型は頻繁に破られる」の破られ方をパターン的に調査しているが、
　PLBのような定型化しやすいパターンでは補えない（見過ごしている）が、
　人間だとパターンとして認識しやすいものって無いのだろうか。
　例えば「いとをかし」とかは単体じゃなくて別の文と一緒に使うことで
　初めて違う意味を持たせる、みたいなものだろうし。ただの多義語？



会場Q: 考察対象にしたのが元表現の形態素のみを含むパターンになっているが、
　そうではないパターンでかつある程度の頻度が高いものがあったとしたら、
　どういうものがあったのか。
A: 例えば「触らぬ神に祟りなし」だと「神」が変えられている例が多数が
　ある一方で、異表記パターン（祟り、たたり）もあった。
会場Q: 検出を考えると、そういうのがあるなら、元表現と同じではない
　逸脱パターンを見つける方向にいけるのではないか。
A: 可能性としてあることは認識しており、今後考えていきたいと思う。








B4:対話・文脈処理

3月10日(木) 13:00-15:30　A2-101教室　　座長: 駒谷和範 (名大) 

B4-1 POMDPを用いた聞き役対話システムの対話制御 (pp.912-915)

○目黒豊美, 東中竜一郎, 南泰浩, 堂坂浩二 (NTT)

聞き役対話
　二者間の発話で一方が聞き役、多方が話役という役割を持った対話
　聞き役は相づちだけではない
　質問したり自己開示（自分の意見）したりして、発話を促す、引き出すことが重要
　「聞いてもらいたい」という欲求を満足させる

発話理解部＋対話制御部(対話履歴)＋発話生成部
　今回は対話制御について。
　　例）ノンバーバルな聞き役（ジェスチャー）
　　　→言語表現でやる

POMDP: システム・ユーザのインタラクションをモデル化(する機械学習)
　報酬（あるアクションの結果の望ましさ）の平均値を最大にするアクションを選択
　ただしタスクが明確でない対話への応用例はない
　→ユーザ満足度＋自然性の二種類の報酬を導入
　　DBNでシステムとユーザの振る舞いをモデル化
　　アクションに報酬を与える構造（POMDB）に変換
　　　HMMやEvenPOMDPより高評価


Q: 制御部の話だから出力をどう生成するかについての話がなさそうなんだけど、
　強化学習するには出力が必須なはず。文選択させるとかで疑似出力に
　してたりするのかな。
　→カテゴリ



会場Q: 満足度と自然性の両方を定義したとのことだが、バランスも重要では。
　そこも強化学習の枠組みでやっているのか、単純に5部5部なのか。
A: 足しているのだが、重みは数パターン試した上で調整した。そもそも異なる
　スケールなので、単純に重みとして言えるかは分からないが、
　満足度：確率で確率の方が4,5倍して、同じぐらいになるように調整してある。

会場Q: 何を評価しているのか良く分からなかった。シーケンスを評価している？
A: 本当に評価したかったのは対話行為の列だが、人手で対話文を生成した上で
　評価した。
会場Q: そこはくせ者で、何を「自己開示」にするかがコントロールされないと、
　何を評価しているかが分からないのでは。
A: 文生成にはルールを決めた上で、キーワードを埋め込む形で生成。
　いくつかルールがあるが、そこからの選択は人手になっている。
会場Q: そこをコントロールしないと、どちらが効いているのかが良く分からない。
A: 16人に生成してもらった上で評価しており、
　ある程度ならされた評価にはなっていると思う。

会場Q: 対話行為を自然文になおすというのはとても難しい。コーパスに対して
　スコアリングしていて、一番右側の文を自動生成できない理由は？
A: 今回の学習は対話行為列をアノテートしたものを使っており、
　出力は対話行為までが限界。
会場Q: そのままだと汎化しすぎているように見える。






B4-2 対話型e-Learningシステムの開発 (pp.916-919)

○峯脇さやか (弓削商船高専), 嶋田和孝, 遠藤勉 (九工大)

優れたIT人材
　ITに関する知識や技術を持ち、コミュニケーション能力がある
　e-learningは基本的に一人で取り組むもの
　　孤独でモチベーション維持困難
　　うまく質問できない
　　→システムに質問しながらe-learningコンテンツに取り組む
　　　学力向上＋質問する力（決まり文句を身につけた上で）

発話理解は簡単なパターンマッチング（決まり文句を身につけさせるため意図的）
想定される質問の分析
　システムが受け付けるもの→ヒントを与える
　それ以外→受け付けない
　対話の流れをモデル化


Q: 質問する時の決まり文句より、質問対象をどのように捉えて、どこを
　聞こうとしているのかを明確にするところの方が大切な気もするが。
　「動かないんですけど」「何が？何をどうやった？」とかそういう
　意味では別セッションであった質問支援システムの方がやりたいことに
　近いのかな。



会場Q: このシステムだと、仰れた通り質問する力は身に付くと思うが、
　自分で調べる力を付けることにも考慮して欲しいと感じた。質問ですが、
　ルールの生成にはどのぐらい時間がかかったか。全体のスクリプト。
A: 今回のは課題26個、小問題が各々2〜4つ。学生数人に取り組んでもらって
　約2ヶ月。
会場Q: 直接人間が教えるよりもコストが低くなる方が望ましいと思うので、
　省力化できるように考えた方が良いだろう。
A: スクリプトの自動生成を検討中。

会場Q: 限られた文しか認識できないとのことだが、その文は生徒には
　示しているのか。
A: こういう質問したらいけるよといったアドバイスはしたが、
　マニュアル提示まではしていない。
会場Q: マッチしない時に「受け付けていない」だけではユーザが頑張れないのでは。
A: 学生のアンケートで読み取りに式結果が余り良くなかったという意見はあった。
　そこは良さそうなソフトを使うぐらいの話。認識誤りがあってもまだ
　ポジティブに受け止められている。







B4-3 共通状態と連結学習を用いたHMMによるコールセンタ対話の要約 (pp.920-923)

○東中竜一郎, 南泰浩, 西川仁, 堂坂浩二, 目黒豊美, 小橋川哲, 政瀧浩和, 吉岡理, 高橋敏, 菊井玄一郎 (NTT)

コールセンタ対話
　比較的短くくて120発話（一般に5分程度だが、1時間とかのもかなりある）
　オペレータの振り返りが困難
　　監督者による業務内容把握が困難のため、改善に繋げられない
　抜粋してどういう対話があったかが短時間で把握できる要約を生成したい
　　ルール生成型ではコストが高く、ポータビリティが低い

アプローチ
　自動学習
　コールセンタ対話の特性を利用
　　量が大量
　　多くのドメインの対話を扱うことがある
　　　故障受け付け、引っ越し、契約、、、（数十〜数百個）
　　各対話にはドメインラベルが付与済み
　　→各ドメインに特徴的な発話系列を抽出して要約生成

各発話にドメインラベルを付与し、該当ドメインに特徴的な発話のみを抽出
　個々ドメインをモデル化→エルゴディックHMM
　　個々ドメインから学習したHMMを等確率で接続
　　そのままでは「確率が高い方」のみが選択
　　→全てのドメイン（ドメイン0）から学習したHMMも足してやる
　　　しかし平均になるためほぼ利用されない
　　　→連結学習の導入
　　　　ドメイン0＋ドメイン1で再学習、ドメイン0＋ドメイン2で再学習、、
　　　　を繰り返すことで連結学習。
　　　　再学習ではEMアルゴリズムにより、よく出現する発話の確率が高まる。
　　　　結果として、ドメイン0側では共通的な発話の出現確率が高まり、
　　　　選ばれる確率が上がる。
　　　　　少ないデータからでも効率的に学習可能


Q: ドメイン別の学習をしつつ、全体としてどう組み合わせるかのバランスを
　再学習という形で補うのは面白いと思うが、後からやるのではなく最初から
　マルチクラスとしての学習をするのとどちらが効率＆精度的に良いのだろう。



会場Q: (1)コールセンタのオペレータにとっての振り返りには良いが、
　業務改善については繋がらないようにも感じた。改善に繋げるのに
　どういう要約を検討しているか。
　(2)発話シンボルに変換して学習するとのことだが、挨拶ぐらいの尤度だと
　どのドメインでも変わらないように思う。どのぐらいの値か。
A: (1)直接的に改善に繋がるかは分からない。まずはブラウジングを
　想定している。重要な部分のみを見つけやすくすることで間接的に
　役立つと考えている。(2)発話シンボルは今は100にしている。
　いくつか試した範囲ではこれが適当だった。

会場Q: 解約したいという場合にはどういうイベントなのかがマークされていたが、
　実際に欲しいのは「どういう理由で解約したいと考えたのか」
　といったところでは。そういうのも取れてくるのか。
A: 難しい。目的がおおよその発話内容を把握可能にすることなので、
　特徴的なものが出てくるところまで。個々の詳細については、
　その後の話で、今は入り口としての形を考えている。
会場Q: それだとカテゴライゼーションと同じに見える。
A: カテゴリではなく、客が満足したとかしてないといった場合に、
　その対話の特徴を取れるという可能性がある。もう少し工夫が必要だとは
　考えている。






B4-4 コールメモを利用したコールセンタ向け音声対話要約方式の提案 (pp.924-927)

○田村晃裕, 石川開 (NEC)

コンパクトな要約テキスト（音声）のニーズが高い
　アブストラクト型／抜粋型
　教師データの有無
　→教師データを使用しない、抜粋型要約
　　tfidf法：業務上必要箇所と一致しない。頻出する要件が含まれない。口癖が含まれる。

コールセンタのニーズにあった要約生成
　蓄積されたコールメモを利用し、要約に含める。
　使い方に工夫が必要
　　ベースライン：MF法（出現頻度が高い箇所を抽出）
　　　通話とコールメモでの表現の不一致を考慮できない
　　提案手法：AS法
　　　通話とコールメモの単語の相関を用いて表現不一致問題を解決
　　　各単語の重要度＝同一内容らしさ＊コールメモにおける重要度
　　不要発話削除の導入
　　　「はい」「えー」「○○コールセンタです」
　　　発話出現頻度が閾値以上の発話


Q: 抽出したい「重要語やそれを含む文」にもケース次第で大きく異なる
　というのは面白い。汎用的にパラメタライズで「こういうケースの重要語」
　というのを抽出しやすくできたりするのかしら。



会場Q: 二つの軸でindicative/informativeとのことだが、同じものに対して
　2軸で評価した？
A: infomativeは通話内容を漏れなく含む要約で、60％ぐらいに圧縮されたもの。
会場Q: F値が0.5ぐらいというのは、どのぐらい良いと思うのか。直感で。
A: 書き起こしに対して0.5ぐらいだが、実用に堪えうるかなというレベル。
　音声認識誤りが含まれると、誤りを含む形で要約してしまうため対応が必要。

会場Q: 書き起こしを使うというのは実用としては考え難く、それぐらいなら
　コールメモが良い。如何に精度を上げていくか。音声認識誤りの対策として
　どういうことを考えているか。
A: 音声認識結果を良くしようというスタンスではない。誤りが含まれた
　要約テキストを見せてしまうと分かりづらいので、音声を聞くことで
　要約されたテキストの音声を聞くことで人間側で補正できるかなと考えている。

会場Q: 音声認識の精度はどのぐらいなのか考えてないとのことだが、
　仮に100％だとした場合の評価があれば。
A: そのつもりで書き起こしで評価を行った。






B4-5 Toward Plan Recognition in Discourse Using Large-Scale Lexical Resources (pp.928-931)

○Naoya Inoue (東北大/学振), Kentaro Inui (東北大)

談話の背後には登場人物の目的達成のためのプランがある
そのプラン（goal-means tree）を文章から自動的に生成する
談話解析には世界知識が必要だが、昔は利用できるものが殆どなく、
研究としては廃れてきた
　今ではFrameNet, WordNet等の大規模な世界知識が利用できるようになってきた
　→やってみよう！

プラン推論のモデル
　談話から合理的な説明を求める→説明から目的／手段の関係を抽出
　説明を求めるとは
　　仮説推論 abductive inference
　　　背景知識Bと観測Oから最小の仮説Hを求める推論
　　　細小にも色々ある：ここでは可能な仮説の中でリテラルが最小のもの
　　→知識ベースに目的/手段関係も埋め込み、推論できるように工夫

知識ベース
　既存の知識を変換したもの
　　同義語、上位下位等：数百万オーダー
　　極性知識：数万オーダー
　人手でエンコードしたメタ・ナレッジ
　　一般的な知識

知識ベース充足性の確認実験
　人手で同定した仮説推論まで辿り着けるか、推論パスを埋めることができるか
　77.4%のアクションに対して埋めることが出来た
　　そのうち半分はメタ・ナレッジを使う必要あり
　失敗例の多くは固有知識が不足（カビキラーは何のために使うのか）

語彙知識はそれをどう使うかを考える段階であって、既に十分にある。
推論ルールが重要な役割を果たしていた


Q: メタ・ナレッジ部分が結構効いているようだけど、この部分はどのぐらい
　質・量を用意したらどのぐらいの精度が出るか、といった目安はあるの
　かな。他との兼ね合いだというのは分かるけど、応用した結果を評価する
　のではなく、知識ベースそのものを評価するという意味で。



会場Q: 計算量はどれぐらい？
A: 仮説推論をやって、最小仮説推論求めるのはNP-hard。
会場Q: 今後どういう方向を考えている？
A: 将来は重み付きabductionがあり、それを考慮しつつ自動化していきたいと
　考えている。

会場Q: ドキュメントはどんな文？ドメイン的な意味で。
A: 家事。
会場Q: 足りない知識は、ドメイン依存だと思う。こういう知識が
　足りているのかという意味でいろんなドメインを試してみる必要が無いか。
A: 固有名詞に対する知識が足りていない。様々なドメインで出てくるだろう。
　どんなドメインでやるにせよ獲得する必要あり。

会場Q: 正しくない解釈が得られる可能性もありそうだが。
A: 今回は別の問題として考えていて、今回は正しい説明が入ってくるかを
　考えていた。正しくない候補が入ってくる可能性はでてくると思う。
会場Q: より小さくて、正しくない候補が入る可能性。
A: 確認してみたいと思う。






B4-6 視線情報を利用した協調作業対話における参照解析 (pp.932-935)

○安原正晃, 飯田龍, 徳永健伸 (東工大)

人間と協調作業を行うシステム
　参照表現：参照解析＋参照表現生成
　対象は参照解析（視線情報）
　　人間が無意識に生み出す情報のため負担が少ない

参照表現コーパス
　協調作業対話コーパス：参照表現に人手でアノテーション
　　発話テキスト、ピースやマウスの位置など

参照解析手法
　特徴ベクトル→ランキング・モデル
　　素性：談話履歴情報10個＋オンマウス情報6個＋操作履歴情報6個＋視線情報6個
　　注視：100ms以上留まった場合。連続した視線位置の重心。
　　抽出区間毎に3つの素性を計算
　　予稿集には結果に誤りがあり、より高いスコアが出た


Q: オンマウス情報使ってるなら視線情報要らないんじゃと思ったけど、
　何故精度改善に貢献したのだろう。数値化することにトリックがあるのかな。



会場Q: 視線情報とオンマウス情報は近いように思うが、どのぐらい一致するか。
　改善したということはオンマウス情報より情報量が多いようにも思えるが、
　履歴の有無が関係しているのか。
A: (1)視線情報とオンマウス情報の違いについてはまだ未解析。(2)オンマウス
　情報には履歴が効いていなかったのではという点ついては、
　それらを用いない場合でも殆ど精度が変わらない。
会場Q: 代名詞の場合は下がりますよね。代名詞の時と非代名詞の時の違いが面白い。

会場Q: 視線情報はどのぐらいの区間や時間で参照したら良いのか。
　広過ぎてもピンポイント過ぎても扱いが困難だと思うが。
A: 今回は決めうち区間で試した。1300msとしたのは、
　平均して高いスコアが出る区間だったため。






B4-7 直接照応解析における分野情報および文脈情報の有効性検証 (pp.936-939)

○浜田伸一郎, 齋藤佳美 (東芝ソリューション)

直接照応解析
　ある談話要素が指す、同一の事物や意味を持つ、他の要素を推定する技術
　　先行詞->照応詞
　曖昧な語を具体的な語に置換したい（例えば要約）
　　直接法／全体法：両者とも欠点
　　表層一致ペア／表層不一致ペア
　　　語彙分布は類似
　　　語彙的関係は異なる
　　　割合は：一致ペアは70％、不一致ペアは30％程度の差
　　　→混合法
　　　　直接法同様、表層不一致ペアの解決が目的
　　　　ただし語彙分布の特徴で補完

表層一致ペア→表層不一致ペア
　転移学習＋表層一致ペアで用いられた語の頻度利用
　文脈的素性：表層・意味が一致する近傍の表層一致ペア数
　→両者とも改善に寄与


Q: TLみたいな「他人のツイートや話題」に対する照応みたいなところにも
　使えるのだろうか。



会場Q: 効果のなかった素性はあったか？
A: 今回提案した素性以外は標準的なものを用いて、
　試した範囲では比較的有効であった。

会場Q: 要約に使えるという例は分かりやすかったが、
　新聞記事にやるという場合でも同じ問題になるのか、差があるのか。
A: これは新聞記事の例で、同じ。

会場Q: 今後の部分一致しているのとしていないのとでどれぐらいの差があるのか。
A: 機械学習の重みとしては表層部分一致は結構重みが大きく、有効だと思う。
会場Q: 部分文字列で失敗するケースでは、ある程度予測がつくと思うが、
　それは素性では含まれているか？
A: 例えば表層が同じでも意味が違う場合には、意味の所で棄却できると思う。
会場Q: 意味素性でも同じでは？
A: 意味素性では異なる。







A5:教育応用

3月10日(木) 15:50-18:20　A1-101教室　　座長: 田中久美子 (東大) 

A5-1 学習指導要領に立脚した児童作文自動点検システムの実現 (pp.1045-1046)

○藤田彬, 田村直良 (横浜国大)

文章の自動評価が必要となる場面が年々増加する見込み
　記述式を含むe-learning／小論文試験／作文指導
　労力的な問題
　評価基準が安定しない

自動評価
　要約の評価はあるが文そのものの（日本語は）評価はあまりない
　e-rater: 重回帰モデルで採点
　Jess: 理想小論文を手本とする方式

学習指導要領の指導事項のモデル化
　指導事項の分類
　　「B:書くこと」の「構成」と「記述」
　　点検：不適切と思われる箇所をマーキング（修正まではやらない）
　　独自分類：構文／結束構造／修辞・構成／モダリティ／etc.
　教師による点検事例の解析
　点検モデルの構築


Q: 絶対的な基準として学習指導要領を上げていたけど、そこからモデリング
　（独自分類）している時点で「モデル者の主観」が入り込んでる気がする
　のだけど、大丈夫なのかな。



会場Q: 作文データを入力して指導要領に合致する／しないのエンジン部分が
　最も困難な箇所だと思うが、どう考えているか。
A: 既にあるシステムという点では、文法的な語彙チェックは例がある。
　文章の構造構成を採点するというところが大きいが、ここに関しては未検討。

会場Q: (1)児童作文対象だと綺麗じゃない文だらけで、形態素解析だけでも
　かなり大変だと思う。(2)自動点検ではなく、本当に間違ってて指摘すると
　大変だと思うので、その前に先生が見る時にアシストするシステムを考え、
　そこから次に進むと良いのでは。
A: (1)作文点検する前に、助詞誤用等は洗い出した上で、利用を想定している。

会場Q: 提案だが、作文授業で起こりそうな例として、一部の生徒が何も手が
　進まない。児童生徒が書いたものがあって初めてシステムが動くようだが、
　何も書けない状態の児童をどう支援できるかという点も検討されては。
A: 実際その通りだと思う。

会場Q: 対象が小学生の作文とのことだが、小学生にPC使って作文させると
　不感になると思う。実際に書くことが大事では。
A: 仰る通りだと思う。一番良いのは余り綺麗ではない文字でもそれを
　認識するシステムがあると嬉しい。

会場Q: 児童の書いた作文を機械が採点する／点検するということで良いのか。
　教師をアシストするのがあるべき一つの所かなと思う。あれもこれもやりたい
　ではなく、実際の教育現場で機能するのは何か、を考えては。
A: ありがとうございます。

会場Q: 作文教育のe-learning事例だと思うが、e-learningを考えると
　何も考えずにデータが蓄積され、それを利用することが有効にはならないか。
A: 個人個人の傾向掴めたら良いなと思う。






A5-2 非日本語母国話者の作成するシステム開発文書を対象とした助詞の誤用判定 (pp.1047-1050)

○大木環美, 大山浩美 (NAIST), 北内啓, 末永高志 (NTT), 松本裕治 (NAIST)

仕様書の品質向上が必要
　ツールによる自動化支援
　チェックすべき事項の調査
　　修正前後の文書セット
　　誤り割合：文法52％、語句26％、、
　　→助詞の誤用判定

機械学習による誤用判定＋素性改善
　対象文書：非母国語話者の仕様書
　素性生成手順
　　基本：形態素解析＆構文解析＋固有表現正規化＋助詞前後3単語の原形＋係先

4つの改善案
　助詞が不要な箇所を判定するための学習事例がない
　→全体として悪化しないよう、出現しないであろう箇所のみ学習事例を追加
　原型しか使っていないため違いが判定できないことがある
　→単語の活用形情報追加
　素性列がスパースになりやすい
　→単語と品詞を独立の素性として扱う
　前後3単語と係先以外の有用な情報が素性に反映されない
　→同じかかり先を持つ助詞の追加
　　実験より全組み合わせ時が最も良い精度を示した


Q: 招待講演で話題があった「企業毎のガイドライン」と比較してどちらが
　より優先順位が高いのだろう。そもそも開発も海外にやらせるなら仕様書
　を日本語で書かせることの意味が良く分からないというのもあるけど。



会場Q: データについて。中国人技術者の書いた仕様書のようだが、清書する
　ことがあるのだが、日本語能力試験でN1レベルとN2レベルがあって、
　英検1級2級ぐらいの差がある。もともとどのぐらいの日本語入力レベル
　の人が書いたかによって変わらないか。
A: そこは調査は行えていない。それなりに幅があるということは聞いている。
　他の研究例でもあるが、日本語能力が高い方については余り間違えないので
　誤用判定しても「正しいものを誤検出した」という話があるとのこと。
　今後検討したい。

会場Q: 前提のエラータイプについて。翻訳の関係で実際に営業でクライアント
　と話すと、気持ち的に耐えうるものとそうじゃないものがある。安ければ
　良いレベルというのがあるらしい。助詞エラーの中で、クリティカルなものと、
　そうでないものがどれぐらいあって、どれぐらい対処できたのか。
A: その問題は起きており、70％ぐらいはなおした方が良いだろうというもの。
　30％ぐらいは好みの問題レベル。そこは誰が書き直すかが問題になる。
　ただし仕様書としては統一した用い方をした方が良い。仕様書の品質を
　高めるという目的のため、誤用として扱っている。







A5-3 翻訳教育向け「みんなの翻訳」 (pp.1051-1054)

○影浦峡 (東大), Thomas, Martin (Leeds大), 阿辺川武 (NII), 内山将夫, 隅田英一郎 (NICT), Hartley, Anthony (Leeds大)

翻訳教育
　現場では教員にまかされており、やり取りやログが共有されていない
　過去の記録を活用できていない
　→やり取りの体系化
　　「みんなの翻訳」は自立した翻訳者・グループ向け
　　基本的に自分でやろうとする初心者向け
　　→よりきめ細かい対応

共同翻訳プロジェクト
→関与する要素とプロセスの定義を洗い出し
　複数の人が関わり、比較的複雑な会話セッション
　　テキストエンティティ：文書集合／個別文書／テキストスパン
　　参加者の役割：翻訳者／修正訳者／レビュア／アドバイザ／ターミノロジスト
　　やりとりのタイプ(仮)：要求/通知/説明/解決/激励/感謝
　やり取りを作業プロセスに位置づける
　　文書集合レベルを巡るやり取り
　　個別文書レベルについてのやり取り
　　テキストスパンをめぐるやりとり
　　→まだバランスが良く分からず
　　　教育目的としてはある程度統制した方が良いが、
　　　統制し過ぎても教育効果が薄れる等、要検討が必要。

翻訳教育向け「みんなの翻訳」は2011年7月に公開予定


Q: ユーザビリティとかではなく、統制バランスが教育効果にも影響を及ぼす
　というのは考えたことが無かった点。うまく評価する方法があるのか、
　そもそも利用者のレベルによっても異なりそう等現場でカスタマイズ
　せざるを得ない部分も少なくないのかな。



会場Q: (1)ブロックで翻訳の修正等議論が行われいるようだが、議論結果を
　共有する仕組みはあるのか。(2)作業者の問題で、修正翻訳をする人／チェックを
　する人を必ず用意する必要があるようだが、対象言語力が無いと人員確保の
　問題が無いか。
A: (1)修正カテゴリタイプでコントロールした上で、インスタンスをまとめる。
　それ以降については言語処理的なメカニズムでフリー記述・討論を
　まとめられると、半分自動化できることを期待している。
　(2)リバイザは原文を見て修正する。レビュワーは翻訳された対象文だけを
　みて修正する。翻訳教育の現場では必ず全ての役割と異なる人がやる必要
　はない。関わった方が教育効果が高いというのもある。役割分だけ異なる人を
　準備する必要は無い。日本とは異なる事情として、欧州ではかなり学生数が
　多いためそこは問題になり難い。

会場Q: このシステムは、学校に配布して教室の中で、その場で使う？オンライン？
A: その場に居て使うシステムとして設計している。
会場用Q: ペアプログラミングというのがあるが、それを如何にシステムで
　補助するかという話がある。
A: 参考にしたいと思う。






A5-4 Stativity判定に基づいた時制誤り検出 (pp.1055-1058)

○永田亮 (甲南大), Vera Sheinman (教育測定研究所)

シンプルな方法：コーパスから現在／過去／未来を判定する分類器を構築
　困難
　→Statiity判定する分類器を構築

発音してみよう
　I read the book.→過去を示す表層情報は無いのにレッドと発音
　何かが隠れているのでは？
　→Stativity: 動詞の分類
　　動作動詞／状態動詞
　　動作動詞：現在の動作に対して単純現在を使用することは制限を受ける
　単純現在の動詞抽出
　　動作動詞なら時制誤り
　　→どうやってStativity情報得るか？
　　→単純なif-thenで決めうちして良いのか？

コーパス→学習データを人手で作成 　Stativity判定を行うME分類器
　　動詞毎に分類器を作成
　現在形で使用できる動作動詞
　　習慣的動作／一般的真理／未来の確定した予定／「時」「条件」を表す副詞節中
　→先行研究と比較して検出率＆検出精度共に高い（6割弱）


Q: 実は例文で「リードとは読まない」というのが納得できていなかったのだけど、
　制限を受けるだけで可能性がゼロだという話ではないということでやや納得。
　ただ、その例外規定がこれで十分なのかが良く分からず。実際問題としては、
　結果見る限りは「これで多数は問題無い」ということらしいけど、
　まだ検証例が少ないだけじゃないのかな。



会場Q: Stativityという概念が効果があるというのは直感的にも分かる気が
　するが、分類問題では置き換えただけになっていないか。うまくいかな
　かった方は3値分類でやっている。
A: 1分類としてやればできるという可能性もあるが、まだやれていない。

会場Q: 時制誤りについて、副文で時制一致がいる例というのはどういうのがあるのか。
A: 主となる動詞と副文となる動詞は、そんなに強い制約ではないと考えている。
　ただ、よりうまくなるケースとしては使えると思う。

会場Q: Stativityを現在／過去に置き換えると同じ問題になるような気がしている。
　前後3単語でME決定していたが、人間がやるとどのぐらいなのか。
A: 一般の新聞だと分からないが、教育用問題では典型的な用法が多く、
　それについては迷うことは無い。分からなくて除外したものもいくつかある。
　アノテーションは一人でやってしまった。

会場Q: 書き手に何かフィードバックをかけることは可能なのか。
A: どこが違うよと示すだけでも役立つと思う。具体的なところはこれから考えたい。






A5-6 最大クリーク探索に基づく特許検索履歴の統合 (pp.1059-1062)

○乾孝司 (筑波大), 難波英嗣 (広島市立大), 橋本泰一, 藤井敦, 岩山真 (東工大), 橋田浩一 (産総研)

特許に関連した先行技術調査
先行技術調査における集合知の循環
　→先行技術調査の生産性を持続的に高める
　　注釈や検索履歴を循環させて利用するために辞書作成
　　　今回は履歴＆検索質問からどう辞書を作るかについて

入力支援：OR質問
辞書構築：関連語辞書
検索はAND/ORを組み合わせるが、OR質問への入力を支援
　例：(半角Web+全角Web+ウェブ) * サービス
　　　(A+B+C)*(D+E)
　　　頑張ってやる部分、連想をサポート
　シソーラスでは概念粒度の違い、良く分からないものがあり、サポートしづらい
　→蓄積される履歴を利用

検索意図により「関連」の意味合いが異なる
　観点に基づく構造化
　　例：観点1（認証:画像、指紋、）、観点2（音:音楽、サウンド、、）

IPCCで行われている方法 　OR部分の共通性に基づく統合・登録処理を繰り返すことで関連語を増やす
　履歴と共通部分が多いなら加える
　どの検索者が入力した履歴かを問わないため、ノイズになる可能性。
　→さらに他検索履歴も参照し、エビデンスを確保（履歴中でOR結合している場合だけ登録）。
　　IPCC法はincremental、エビデンス利用だとbatch処理
　　→履歴情報を単語グラフ表現＋最大クリーク探索（極大クリーク列挙）


Q: データをグラフ化→最大クリーク探索という問題への落とし込み方が面白い。
　観点をどう求めるかは良く分からなかった（クリーク＝観点？）けど、
　条件緩めることでいろんなことに応用が利きそう。



会場Q: クリークを使った利点を教えて欲しい。普通なら確率とかでも良さそうだが。
A: 元々の問題設定としては、クリークを見つけないと制約を満たせない。
　確率的なやり方もあるかもしれないが、今回は見つけていない。
会場Q: 完全クリークのみ？
A: 擬似的なクリークは取っていない。ただし、若干観点を分け過ぎている
　ようにも見えるので、制約が強すぎるかもしれない。







A5-7 テレビスポーツ番組におけるリアルタイム字幕の特徴 (pp.1063-1066)

○福島孝博 (追手門学院大)

テレビ番組の字幕
　Open vs. Closed Captions
　生でない番組への字幕：ほとんど付与
　総務省方針：2017年度までに生番組まで拡大
　典型例としてスポーツ番組
　　サッカー：4名登場（実況アナウンサー、解説者2名、ピッチレポーター）
　　大相撲：3名登場（館内アナウンス、呼び出しはもともと字幕対象外）
　字幕
　　1,2行30字程度
　　話者を色分けする傾向

固有名詞
　基本的に省略せずフルネーム
　サッカー：海外選手は文字数多いためか、字幕として生成されないことが多い
　大相撲：字幕者にもよるが、発話以上に名前が生成されることが多い
発話速度
　サッカー：発話が早い、字幕が出ていない時間帯あり（追いついていない）
　大相撲：比較的ゆっくり、一部で要約率1.0を越える（リスピーク方式）

字幕の問題点「泣き別れ」
　「青いユ」「ニホーム」
　　サッカーにて8回、大相撲で0回

今後
　情報保証のためのテレビ字幕のあり方を明らかにする

オーストラリアの例
　ノーマルタイプとヒアリングタイプを選択できる（差は良く分からなかったが）


Q: 米国だとかなりがっちりリアルタイムでもタイプしまくられているよう
　だけど、そっちでは情報保証をどう考えているのかな。あと、そもそも
　文字だとなかなか理解できないケースもあるらしいので、よりリッチな
　サポート方法というのはまだまだ考える余地が数多く手つかずになって
　いるのかもしれない。



会場Q: ワンセグで字幕見てると納得いく話で、興味があるのは聴覚障害者
　への要約費。健常者と一緒に授業受けたいとか。TVに絞っている理由や、
　他への応用について何かあれば。
A: 聴覚障害者への情報保証の話をするといろいろあるが、TVならTVでの制限
　などを考えていく必要がある。どういう字幕ができるかという点で調べている
　段階。情報保証としての字幕であるべきで、人権問題にも関わってくる
　デジタル時代の対応問題。リアルタイム番組におけるあるべき姿を模索している。

会場Q: 現状のTV字幕で遅延時間については何か調査結果があるか。
A: TV局に聞くと良いと思うが、ある程度以上遅れてはいけないという
　ガイドラインがある。サッカーでは完全に遅れている。ある程度の時間で
　区切って出している。

Tags:イベントレポート, 学会, 自然言語処理
Posted in イベントレポート, 学会, 日記, 研究 | Comments Closed

NLP2011, 本会議2日目終了（セッションB2: Twitterと言語処理）

水曜日, 3月 9th, 2011

NLP2011、本会議2日目（一般講演セッション1つ＋招待講演1つ＋特別講演1つ＋ポスターセッション1つ）。

目標だけでなくアプローチも手段も多岐にわたる話が多くて脳みそが崩壊しそう。ブログにまとめた分だけでも後でKJ法するだけでもかなりの知識が必要になりそうだ。まだ大会途中だけど、やっぱり参加して良かった。

ということで、以下、本会議2日目のメモです。

目次
・B2: Twitterと言語処理
　・Wikipediaのカテゴリ階層を利用したTwitterユーザのカテゴライズ手法
　・マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案
　・Twitterからの個人の行動に起因するトラブル予測システムの試作
　・マイクロブログサービスの返信行動に着目した投稿及びユーザの分類
　・Twitterユーザの属性判別によるスポーツ映像の自動要約
　・Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出
　・パネル討論: 各パネリストによるショートプレゼン＋討論お題＋会場質疑応答という構成
　　・Twitter連携サービスの変遷: 横田真俊（Twitter解説書著者）
　　・TwitterのStreaming APIを使ってネタ集め: 辻村浩（沖電気工業株式会社）
　　・ソーシャルセンサーとしてのTwitter: 榊剛史（東京大学）
　　・自然言語処理屋から見たTwitter: 岡野原大輔（PFI）
　　・「ツイちぇき！」開発における取り組みと課題: 大角知孝（(NTTコミュニケーションズ株式会社)
　　・お題1：Twitterは他の言語処理と比べて何が違うのか。
　　・お題2：Twitter情報活用したサービスは色々ある。それらにおける課題や注意点。
　　・お題3：今後期待されるようなサービス／技術。どういうアプローチが面白そうか。
　　・会場質疑応答
・招待講演2: 「実務翻訳の現状と未来」講演者　田中千鶴香氏（日本翻訳連盟理事・日本語標準スタイルガイド検討委員長）
・特別講演: 「表現から意味へ：言語処理技術と言語の科学」講演者　辻井潤一氏（東京大学大学院，マンチェスター大学教授，英国・国立テキストマイニングセンター研究担当ディレクター）
・P3: ポスター(3)





B2:テーマセッション4: Twitterと言語処理
B2-1 Wikipediaのカテゴリ階層を利用したTwitterユーザのカテゴライズ手法 (pp.448-451)

○放地宏佳, 鶴田雅信, 酒井浩之, 増山繁 (豊橋技科大)

ユーザ推薦のために公式用意されたカテゴリ数は8種類。
母数と比較してあまりにも少ない→客観的な判断に基づいたユーザ分類

発現内容に基づくカテゴライズ
　新語が多く形態素解析困難
　既存シソーラスでもカテゴライズ困難
　→Wikipedia利用してカテゴライズ

特徴誤抽出のための前処理
　ユーザ名除去
　RT,QT以降の文除去
　ハッシュタグ除去
　文字表記法法の統一「は”」→「ば」


Q: 違和感を感じたのはツイート分類かユーザ分類かが混ざっているのか。
　人自体が多面性持ってるし、移り変わるものでもあるし。ツイート分類
　して時系列的にユーザ分類するのが良いのかしら。



会場Q: カテゴリを辿って近いパスといったが、共通カテゴリへの最小パス？
A: 特徴語から近い方。
会場Q: 閾値から2以上というのは2未満の誤り？
A: 最上位カテゴリと特徴語があり、数式では最上位カテゴリからの値。

会場Q: Wikipedia中リンクのアンカー名とタイトルとの関係を使うと
　より頑健な抽出ができると思う。

会場Q: ユーザ20名はどうやって選んだ？
A: Streaming API から取得した日本人からランダム抽出。
会場Q: ユーザによってカテゴリのしやすさもあると思う。

会場Q: 複数のことに興味があってまたがったツイートをしている人も
　いると思う。特徴語から共通カテゴリを取るとかなり上位のカテゴリ
　が取られてしまい変なことにならないか。
A: 1ユーザについて全部をまとめて共通カテゴリを作るわけではなく、
　複数カテゴリが付与される。閾値調整であまり上位過ぎないように調整する。





B2-2	マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案 (pp.452-455)

○向井友宏, 黒澤義明, 目良和也, 竹澤寿幸 (広島市立大)

Twitter「リスト」の名前からユーザの属性を判別＆特徴誤抽出。
必ずしも嗜好情報を表しているとは言えない。
「お気に入り」は嗜好情報含むが、あまり利用されていない。
→「リツイート」を利用。
　全ツイート使うよりもクラスタリング結果は良質に見える。

リツイート中の名詞を利用。
　表記揺れ→Wikipediaカテゴリ情報
　意外性のある推薦
バースト＋極性評価（ネガティブ時は推薦しない）
　仮定：推薦が受け入れられやすいタイミング


Q: favtterとかある程度整理されたのを後から見るケースも増えてきてる
　ので、リアルタイム性が必ずしも高いとはいえないのかも。
Q: （そもそもツイートに反応するボット的な推薦は受け入れられるのだ
　ろうか。ボット的な推薦なのかは分からないけど）



会場Q: ネガポジ判定に「ヒット」といった言葉で決まってしまうとのこと
　だが、野球でも攻守によって異なる。その対応はできるのか。
A: ツイートの流れを追う事によって判別できると思う。

会場Q: (1)リツイートを対象にした時と全ツイートを対象にしたときとで
　どのような差が見られたのか。リツイートは情報が高かったものを広める
　役割で、嗜好を表しているというのも何となく分かるが、クラスタリング
　されているか否かと嗜好を表しているか否かは一致していないように思う。
　(2)タイミングで高揚している時に出すというのは面白いともうが、
　実際やってみてどうだったのか。
A: (1)ユーザ毎にプロファイリングした結果、全ツイートを用いると特徴的
　な語が取得し難い。
　(2)タイミングについては、評価実験はまだ行えていない。

会場Q: クラスタリングの評価について、直感的にやったのか、
　客観的にやられたのか。
A: 成功している／いないについては直感。具体的な尺度は無い。

会場Q: クラスタリングすることで意外性のある情報推薦ができると考えた理由は？
A: 異なるユーザの特徴語に共通点が多く、異なる特徴語があり、
　カテゴリ的に上位で共通していれば意外性があると考えた。






B2-3 Twitterからの個人の行動に起因するトラブル予測システムの試作 (pp.456-459)

○隅田飛鳥, 服部元, 小野智弘 (KDDI)

ユーザのログから特定トラブルが発生する可能性が高いか否かを判定したい。
例：健康管理システム（肥満）
個人の行為・状態の積み重ねを原因とするトラブルに限定
　地震とかサーバダウンは対象外
　因果関係を用いた予測
　時間関係も加味して要因を認識する必要がある

原因候補の抽出＋グルーピング
　名詞の上位下位関係、動詞の含意関係
時間情報を考慮してトラブル発生しやすさを機械学習してスコア付け
　素性:単語そのもの+周期性+原因候補の書き込み時刻+周期の変化


Q: メタボとか複数要因（食事、運動等）が絡むようなのは、
　今の所考慮しないということか。



会場Q: 評価について。「風邪」から「風邪」は分かりやすいが、
　「風邪引きそう」はトラブルとしては除外？
A: 除外。
会場Q: ニーズについて。ユーザが使う時に嬉しいのかどうか。
　どう説明するのか、役に立つと示すのか。
A: 実証実験を行いたいと思うが、まだそこに至っていない。
　精度高くしないと実用には厳しい。

会場Q: 表現語の選択はどうやっている？
A: 「風邪」を必ず含む後にしているので、限定し過ぎているかもしれない。

会場Q: 「太った」というのが「トラブル表現」とのことだが、
　太るというのは急激に発生するわけではなく徐々になる。
　トラブルとしてはどう書くのか。
A: 例としては「体重計のったら太っちゃった」とか書かれる。
　それを「太る→太った」と表現した。

会場Q: 警告をすると言ったことを考えている？　この時に太ることを
　覚悟していることもあると思うが、どう考えているか。
A: トラブルの選択については考える必要があると思う。






B2-4 マイクロブログサービスの返信行動に着目した投稿及びユーザの分類 (pp.460-463)

○黒澤義明, 竹澤寿幸 (広島市立大)

フォローしやすい→増え過ぎて大変→要選択
　親密度（？）を返信行動「投稿の繋がり」で分類
　名詞だけでは無関係→Wikipedia辞書でカテゴリ同一

カテゴリ化
　Wikipediaでカテゴリ情報抽出（2段階）
双方への配分
　ペット：3×α　（3倍して重み調整）
　ツイッター文長自体が短いので、複合して情報量upを期待
クラスタリング
　pLSA, SOM


Q: ツイート文長が短くて情報量少ないという点を「カテゴリ名」を
　「3倍＋重み調整」するというのが相対的のどのぐらい効果が出そう
　なのか良く分からない
Q: TL検索して垣根を越えて人を見つけやすくなってるだけでも十分
　だとも思うけど、コミュニティ単位での検出という意味ではそれが
　嬉しい場面もありそう。ハッシュタグもそうだし。



会場Q: クラスタリングで、学部が一致すべきかどうかが良く分からない。
A: 課題でも述べたが、学年の進行に伴い変わるものだし、学部の中でも
　仲が良いとは限らない。もう少し細かいクラスタでやりたいが、
　細かい情報が載せられてないためアンバランスな面がある。

会場Q: セレンディピティという話もあるようだが、最終的な目的は？
A: 全ツイートを見るわけにはいかないので、興味のあるツイートを提示
　したい。興味通りの所を提案するだけだと飽きるので、新たな友達を
　発見するツール等を考えている。

会場Q: 返信内容に含まれる単語を使ってクラスタリングしているよう
　だが、単純に考えると返信し合っている人は同じくラスタに入りやすい。
　それだけだとフォロー関係使っても同じものを得られそう。それ以上の
　ものが取れているのかどうか。
A: 直接比較はできていないが、フォロー関係については別途やっており
　合体／比較していきたい。

会場Q: 評価の方法として、ツイッターで作られるコミュニティと
　現実生活コミュニティが同じであると仮定していると考えている？
A: その通り。
会場Q: それをネットで発見する意義は？
A: 友達作りが下手という話も良くきくようになった。
　実際あるコミュニティを知らない場合に、チャンスが広がると考えている。







B2-5 Twitterユーザの属性判別によるスポーツ映像の自動要約 (pp.464-467)

○小林尊志, 野田雅文, 出口大輔 (名大), 高橋友和 (岐阜聖徳学園大), 井手一郎, 村瀬洋 (名大)

膨大な放送映像を効率的に閲覧する技術が必要
視聴者の視点による重要なシーン検出
　盛り上がり（歓声／実況チャット）を利用

実況書き込み
　属性評価辞書で投稿者の属性判別
　　「どちらのチームを応援する文脈に現れやすいか」
　　チームを応援するハッシュタグ
　要約映像の生成
　　同一チームを応援する投稿者の書き込みかr亜盛り上がり度を算出


Q: バイアスを気にするというよりそれが気にならないぐらいに
　高バイアスしちゃうよ！というように見える。
Q: ツイートタイミングと映像タイミングとでの時間差は
　何かしら一意にアライメントできるのかしら。



会場Q: 中日ファンの例を見たが、ロッテファンではどうなるのか、違いは？
A: 試合内容と展開によって大きく異なる。この例では大差で負ける。
　この場合、買ってる方は「相手の得点」でも盛り上がる。

会場Q: 巨人／横浜だった場合、巨人ファンが多すぎるといったことがある
　と思うが、問題にならないか。
A: 単語数を一致するように設定していることで調整できた。
会場Q: 2chの実況版とかあるが、それを利用することはできないか。
A: 匿名性があり、どのユーザがどの書き込みをしたかというのが得難い。
　Twitterに特価した手法。

会場Q: (1)ユーザの立場が分かるというのは面白い。偏りがあるというのは
　良いが、日本と別の国となると片方の立場で映像出さないといけない、
　majorityになるような場合にどうなるのか。(2)評価について、立場を
　評価せずにTwitter盛り上がりだけを見た時にどうだったか。
A: (1)明らかに偏りがありすぎる場合には、基本的には属性判別困難。
　単語に隔たりが出てくると可能性はあると思う。
　(2)実際の書き込み件数だけでいくのと比較すると、2シーンはとれた。
　他は立場を考慮しないと取れなかった。






B2-6 Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出 (pp.468-471)

○鈴木啓太, 新美礼彦 (未来大)

最新の話題を収集し続けるのは困難→話題抽出
Googleトレンド／kizasi.jp
　何故話題になっているのか、どう使われているのかは分からない。
　→話題を類推できる情報を提示したい

類推ワード
　トピックワード：相関ルール抽出で生成
　　結論部にトピックワードを持つルール
　関連文書：類推ワードと集めた文書から生成


Q: 昨日のポスターセッションであった「ページに何が書かれているかを
　示す記述用語」みたいな話かしら。



会場Q: 相関ルール抽出で語彙を増やしたとのことだが、類義語とか
　他の方法とは違う効果が得られるのか。この方法に着目した理由は。
A: 相関ルール抽出しか知らなかったというのが大きく、
　他の手法と比べてというのは無い。

会場Q: 具体的にどういう目的でやっている？
A: 類推ワードと関連文書を抽出し、Twitter呟きを使うことで日々
　生まれている単語／略語を類推できるような文書を抽出すること。
会場Q: kizasiみたいなもの？
A: その通り。






B2: テーマセッション4: Twitterと言語処理: パネル討論

最新情報や開発ノウハウについて。
ハッシュタグ: #twitterconf
　togetter: 言語処理学会第17回年次大会-パネル討論[B2-6]Twitter情報を活用したサービスの現状と課題
Twitter研究会
　Twitter, Ust, ATND

以下、
　・パネリストによる数分プレゼン
　・討論お題
　・会場質疑応答
の3部構成。




＞横田 真俊（Twitter解説書著者） @Wslash
Twitter連携サービスの変遷
　BOTの時代
　　今日は何の日？
　　並の人間よりもBOTの方がフォローされる
　ランキングの時代
　　ふぁぼったー、トゥギャッター、バズッター
　Daily meの時代
　　デイリー enews
　　paper.li、Flipboardなど




＞辻村 浩（沖電気工業株式会社） @tsupo
TwitterのStreaming APIを使ってネタ集め
　public_timeline, private_timeline 取り扱いに注意が必要
　　原則として public 使おう
　ログ保存機能のあるTwitterクライアントでひたすら収集
　　Tween, Shiro, Chirrup,,,
　　Twitter IRC gateway(TIG)経由でIRCクライアントの利用も
　REST APIには時間当りの発行回数制限あり
　　ホワイトリスト登録申請はなくなる方向
　Streaming API
　　firehose: Twitter社と契約必要（法人のみ）
　　sample: 契約不要（10~15%に間引きされたもの）
　　filter: 契約次第。検索条件に合致するもののみ取得したいとき。
　参考: FaceBookの場合
　　public_timeline に相当するものは無い
　　基本公開された情報でもないので取り扱い注意




＞榊 剛史（東京大学） @tksakaki
ソーシャルセンサーとしてのTwitter
　Twitterにおける「今」と「どこ」の重要性
　実社会を観測するソーシャルセンサー
　　トレンド・ニュース分析
　　　ツイちぇき！、Buzztter、、
　　評判分析
　　　クチコミ係長、TweetFeel、、、　　　
　情報伝搬分析
　ユーザー影響力分析
　自然現象等の観測
　　カゼミル
　　（終了）みんなの花粉症なう！β
　自然現象の抽出
　　地震検出、虹検出、渋滞・交通情報抽出
　イベント検出の仕組み
　　地震の場合：特定キーワードを含むツイート収集分析＋位置情報
　　ただし位置情報付きツイートは日本全体で5%ぐらい。
　　ユーザプロフィールや、ツイート中の位置情報単語も使う。
　既存ツールでは十分な解析が難しい
　　交互的なツイート、省略表現、略語表現
　実用可能な情報抽出を行っているプロジェクトは少ない
　新しい研究・ビジネスとしての可能性




＞岡野原 大輔（PFI） @hillbig
自然言語処理屋から見たTwitter
　Twitterをコーパスとして活用
　　対話、談話情報が抽出できる
　　周辺情報が豊富
　　量が豊富
　高精度な固有表現抽出が必須
　　その後の精度問題は大抵キーワード抽出の精度が影響
　　tweet特有の表現を真面目に処理
　スケーラブルな処理速度が必要
　自然言語処理の基本的な処理が重要
　　文が短く、省略が多い
　　BOWがうまく動かない場合も多く、真面目な解析が重要！
　　ゼロ照応解析（「俺は良いと思う @RT:….）
　　共参照解析（「AとBなら私は後者」）
　　tweetをまたがるトピック抽出（談話解析）




＞大角 知孝（(NTTコミュニケーションズ株式会社) @elrana
「ツイちぇき！」開発における取り組みと課題
　今、この瞬間に注目されている話題をリアルタイムに分かりやすくお知らせするサイト。
　課題：ツイート取得
　　安定して大量のツイートが必要
　　Search API：断続的に取れないことがあったりする
　　　APIは動いているが更新されない
　　APIが不安定になることを想定した実装
　　並列して異なるAPIを利用
　　　Streaming API  (gardenhose)  + Search API (search.twitter.com)
　　バイアス
　　　場所指定 Search APIとStreaming APIでのツイート文字数比較
　　　場所付きの人はしっかり書いてる傾向
　　Buzz Finder Next(仮称)




＞お題1：Twitterは他の言語処理と比べて何が違うのか。
・ネット特有の言葉が多い（wwwとかも）
・Twitterは一旦投稿したものを削除することはできるが、編集はできない。
　揚げ足取り等に発展しやすい要因の一つ。
・即時性。極めてリアルタイムに近い。
　電車が止まった時にTwitter検索した人挙手→結構いる
・日本語と英語とでも使い方が大きく異なる。
　英語だと単文。日本語だと議論にもなりやすい。
・現実世界との繋がり、コメントしやすさ。
　世の中で起きていることに対してコメントしている。これを取得しやすい。




＞お題2：Twitter情報活用したサービスは色々ある。それらにおける課題や注意点。
・安定したクローラーを書くのが大変。
　普通にAPIで集めるのだと量が足りない。
・Twitterや検索の仕様が結構変わる。
　言語指定の有無で結果が異なるとか。
・データの量が多い。後ろ側で解析する処理が結構しんどい。
　裏側の作りをしっかりしないとサービス提供上の課題。
・Twitter流れてる情報はpublicだけではないので扱いに注意。
・Twitterを認証に使ったサービスが増えてきているが、今後トラブルが出てくるのでは。




＞お題3：今後期待されるようなサービス／技術。どういうアプローチが面白そうか。
・自分の個人情報に着目して補助するサービスが増えると思う。
　Facebookとの使い分けにも興味あり。
・発表にあったトラブル予測のようなものに期待。
　もっと面白いBOTを！
・作ったサービスが期待されるように。
　APIがどんどん更新されて、メタ情報が増えてきている。それを使おう。
・Twitterだけでなく4sqもあるが、空間を有効に利用するサービス。
・ユーザがどういう属性持っていて、どういう話題が受けているかを分かると 　ビジネス的に有効。どう仕掛けたらどう情報が伝搬するかというモデルは
　あるが、それを使った実サービスが出てくるのでは。





Q: Twitterに限らず「情報膨大→要約→嗜好加味した要約」という目的や
　手段の推移は分かるが、これらを「アンケート評価」よりももう少し
　ベンチマーク的な評価をする場をセッティングすることはできないか。
　GroupLensみたいに。





会場質疑応答

会場Q: サービス設計する上でリアルタイムに処理するのか、バッチタイムに
　するのか。システム設計時点でどちらかにすると、もう片方を考慮
　できない。両方を上手くサービス化するための設計は無いものか。
A: リアルタイムの場合でもそのサービスが要求されるのは数分とか10分等、
　サービス次第で異なる。小さいバッチシステムと大きいバッチシステムを
　分けて用意するといったことが考えられる。
A: リアルタイム／バッチ処理かといっても、取りあえず取りこぼしがあると
　クローリング問題。そこをしっかり作って、足りない部分をバッチで対応。

会場Q: 公式報道前にTwitterに流れる情報について。利用にあたり気をつけている
　点があれば。
A: 一番良いのは、上司をフォローしてフォローされること。ある程度見られ
　ているという意識があれば良いのでは。
A: 自分のツイートについては自分の責任。他人のことについてのツイートに
　ついては慎重に投稿するようにしている。
A: いろんな人が見ているので、見られ方次第でネガティブに取られることも
　ある。できるだけポジティブに取られるよう書いている。

会場Q: private/publicがあるとのことだが、tweetには著作権があるのか。分析して
　辞書を作った場合、販売可能か。コーパス公開する際に「やめろ」といった
　ことが無いか。今後どう考えているか。
A: 一応publicになっているので検索エンジンと同じ立場。グレーゾーン。
　Twitterからアクセス止められたら終わりなので、上手くやる必要はあると思う。
A: Ustreamで流した時にそのツイートを表示したら大きな問題になった。
　ユーザ名はぼかして表示するようにしている。
A: グレーゾーン。それがいろんなAPI公開として広がっている部分もある。
　ある程度の許容がもたれているという状況では。







招待講演2: 「実務翻訳の現状と未来」講演者　田中千鶴香 氏（日本翻訳連盟理事・日本語標準スタイルガイド検討委員長）

課題
　コスト削減（プロセス自動化等）
　グローバル化（関連データの標準化）
　ベンダーロックインの回避（Tradosの時代、オープンソース） 
支援技術
　Computer Aided Translation: 翻訳メモリーソフトウェア、用語管理ツール等
　Contents Management System: トピック単位で構造化管理、DITA。
　Translation Management System: プロセス自動化、言語資源一元化。

翻訳プロセス全体の自動化
　機械翻訳は自動化された翻訳プロセスの一部
　対象ファイル→準備→XLIFF等→翻訳支援ツール→XIFF等→後処理→出力
　　用語データTBX、翻訳メモリーTMX
　　機械翻訳は翻訳支援ツールの一つ。

実務翻訳関連オープンスタンダード
　翻訳メモリー
　　TMX(LISAの規格), XLIFF(OASIS), SRX(LISA), ITS(W3C)
　用語データ
　　TBX(LISA), UTX(AAMT)

言語資源の活用
　TAUS(Translation Automation User Society)
　TDA(TAUS Data Association)
　　2011年3月より会員以外も翻訳メモリーのup/download可能に。
　　＊uploadは著作権クリアしたもののみ許可。
　　関連URL: TAUS Search
　　　入力文「翻訳機能」→「翻訳 機能」じゃないとうまくいかない。
　　　何かあればTAUSへ。

機械翻訳＋ポストエディット
　MTと人手による後編集
　　機械翻訳の品質に応じてではなく、
　　目標品質に応じてエディット作業を選択。
　　目標品質毎のガイドラインはTAUSが提示している。
　MTのみ／MT+社内ポストエディット／MT+社外ポストエディット（ライト/フル）

実務翻訳は目的・機能を重視
　コストとスピードに応じて設定
　　正しい表記／自然な言葉遣い／読みやすさ／良い翻訳

和訳時の日本語表記の問題
　文字種が多い
　「どのように訳すか」と同時に「どのように表記するか」が問題
　発注者毎に用語や表記仕様が異なり標準化されていない（特にIT業界）
　　コンピューター？コンピュータ？
　　ローカルエリアネットワーク？
　　ローカル・エリア・ネットワーク？ローカル エリア ネットワーク？
　　グラフィカル？グラフィック？

日本語表記への取り組み
　SINAPS Forum
　　日本語表記スタイルガイドを整理
　　　e.g, 半角英数字の前後にスペースの有無、長音の有無、、

表記使用の不統一：まとめ
　百害あって一利無し
　　ガイドラインは機密文書
　　翻訳品質基準の一つ
　　優良企業ほど企業文化を尊重

提案
　表記統一ツールの提案
　　対象ファイルから用語を抽出
　　抽出した用語の標準表記を定義ファイルに従って生成
　　抽出した用語を生成した標準表記の用語に置換
　　元のファイルに書き戻す
　　ファイル形式対応
　問題点
　　辞書登録時のミスが永続化
　　新語はどんどん増えていく

翻訳の本質は不変
　言葉・質に対するこだわり
　「間」の翻訳


Q: 同じ文であったとしても、文脈によって訳仕方が不適切な翻訳結果が
　あると思うが、どのように選択／支援されるべきか？



会場Q: 表記揺れを無くしていくという提案があったが、全世界に強制する
　というものではないという認識で良いか。言葉の表記揺れにも
　コントロール・ランゲージに通じる部分がありそうだが、どう考えているか。
A: 表記ガイドラインに従って翻訳せざるを得ないのが現状で、大変なストレス。
　これを何年も続けているとタマラナイ。自分は自由に書いて、後はツールを
　使うことで企業毎のガイドラインに従う形に変換できるようになれば、
　とても嬉しい。

会場Q: それぞれが自由に書いた文を機械で変換するという話について、
　語だけじゃなく、構文的な部分もできるんじゃないかと思う。
A: そこまでできるのであれば、ニーズもあるはずなので嬉しいです。

会場Q: 開発する場合お金は出るのか。
A: 検討させて頂きます。大きなビジネスチャンスでもあると思う。

会場Q: 翻訳以外にも社内文書スタイルに統一したいというのが恐らく企業ニーズ。
　そういう企業の蓄積したデータが大量にあれば、ここに参加している人は
　そこに統一するというツールはできると思う。ただし精度の問題はあって、
　100％は困難で、いくら貰えるならどこまで精度を高める努力をする、
　という話に落ち着くと思う。ある程度できたらリファインするというのが
　現実的だと思う。
A: 実務翻訳の世界では、扱ってるファイル形式が沢山。こういったものも
　扱えるようになると嬉しい。逆に言うとそこが条件でもある。そこが使えないと
　使い物にならない。抜き出汁と書き出しを人間がやらざるを得ないと、
　物足りず、値段を付け難い。

会場Q: (1)日本語と英語のペアを見ると機械翻訳でも難しいペア。翻訳のコスト
　として違いがあるのか。(2)日本人は言葉に対する思い入れがあるという話が
　あったが、表記の揺れは重要かもしれないが読む側にとってはどうでも良い。
　そこまで求めているかというのはオーバースペックではないか。スペックを
　下げて行く運動があれば、無駄なお金を減らせるのではないか。
A: (1)コストについては、求める品質との兼ね合いによる。言語の違い、
　場所の違いによっても異なり、簡単には言えない。(2)オーバースペックでは
　ないかという点については、その通りだと思う。ユーザは特に考えていない。
　ただし、社内スタイルを変更するためのコスト、揺らぎを許容するための
　コストが大変。

企業Q: ツールを利用する際に、翻訳のように100%マッチしたら問題無いと
　思うが、そうじゃないケースについて。マッチ度合いが少し減る場合、
　自分が訳した方が早いのか。
A: コストの問題でもあるが、がっかり感。







特別講演: 「表現から意味へ：言語処理技術と言語の科学」講演者　辻井潤一 氏（東京大学大学院，マンチェスター大学教授，英国・国立テキストマイニングセンター 研究担当ディレクター）

計算言語学と言語処理
正しいアプローチ？
　テキストに対して野心的な目標
　　T-H pairs／Frameの認識／意味役割の付与
　　特徴抽出器
　　→うまくいかない場合にはここを改善したり、テキスト増やしたり。
　　　チューニングした結果はドメインが変わると知見が活かせない。
　　　→分野適応／モジュラリティ

考えたいこと
　・テキスト表象と「意味」や「解釈」との間には大きなギャップがある。
　　目標が恣意的あるいは過度に野心的に設定されていないか。
　・人間の言語処理アーキテクチャは複雑。
　　単一の機械学習器だけでは不十分では？
　・巨大データへと向かう方向とは別の研究方向もあるのでは？

工学と科学
　SRL, Textual Entailment
　　句構造、依存構造、意味ラベル
　　　観測不可なものがアノテートされる。NLP応用上嬉しいから付けているだけ。
　　　理論的正当化なく試行錯誤的に行われる。
　　　疑似科学的な定量的評価。
　　　→理論的により設定＋理論からの吟味＋正当化が必要では。
　　言語的な表現レベル
　　　深層と表層
　　　多層的な理論 vs. 炭層的な理論
　　説明すべきデータと説明すべきでないデータ
　　生得説と連合説
　　　言語処理に特化した計算アーキテクチャ？
　　量には還元できない特異な構造
　　質／効率／モジュラリティ／適応可能性への寄与

The modularity of Mind/精神のモジュール形式
　批判されるべき箇所は多分にあるが、分かりやすい形を提示。
　　言語処理のある部分は周辺系にあり、情報遮断性がある。
　　中央系は非限定的な情報参照があり、科学の対象としては研究できない。
　　→強すぎる主張ではあるが、ごった混ぜにしない点は有益では。

文法理論に基づく深い文解析
　制約文法の研究CL：可能な解の集合（句構造木＋述語-項構造）
　文解析器の研究NLP：可能な解の確率分布
　　両者を切り離して見つけることを研究し過ぎていて、
　　どういう解があり得るか、どういう制約を満たしているか、
　　といった側面がお座なりでは。統合されるべきだろう。
　意味に基づく知的な文検索システム MEDIE

何が計算できるかをきちんと定義する必要があるだろう。
どういう構造を計算したら良いのかを決める。
文法理論
　初期の変形生成文法：深層構造で表層の違いを解消したい。（表現と計算の混同）
　生成意味論：深層過ぎる。（野心的過ぎて奇妙な規則／雑多な系）
　解釈意味論：あまり表層と変わっていない。（宣言的な関係記述）
　　→表層／深層を宣言的に記述する

HPSG（主辞駆動句構造文法）
　辞書として記述
　　e.g, love: 動詞、主語1つ、目的語1つ
　文法規則
　　テンプレートとして記述
　　　ユニフィケーション
　　　情報伝搬
　　　→辞書項目に、統語構造と意味構造の写像関係が規定される
　複雑な統語構造から意味への写像

深い解析器に関する二つの見方
　(1)入力→機械学習器→出力
　　入力は様々な特徴抽出により雑多に生成
　　出力に、フレーム／フレーム要素の認識（FrameNet）は野心的すぎる。
　　出力に、意味ラベル（PropBank）もまあだ野心的。
　(2)文→深い文解析器→HPSGによる派生過程→述語-項構造(深い統語構造)
　各々タスク設定が異なる。
　(2)では比較的浅い所に「述語-項構造」が来る。

広いカバーレッジの文法
　文法開発と評価のための木構造バンク
　　派生構造にある確率分布も計算できるので、最も適切な構造を選択する問題に。
　文解析の難しさ
　　カタラン数
　　優先解釈の選択
　　　比較的もっともらしい解釈をうまく選んでくれる確率モデルが必要
　　　確率HPSG

高い効率の文解析
実用上は速くないと使えない
　ユニフィケーションを速くするだけではダメで、
　ユニフィケーションしない（ユニフィケーションする回数を減らす）、
　まで考える必要あり。
　→探索問題
　　CFGフィルタリング、高効率な探索手法、スーパータギング
　　ビームサーチ
　　　ビーム幅を狭くしても大抵は上手くいく。
　　　失敗した時だけビーム幅を広げてやり直す。

スーパータギングによる文解析器
局所処理と周辺文脈
意味の構成性(Compositionally)
　フレーゲの原理：全体の意味は、部分の意味から決定される
　ボトムアップに意味は計算できる
　周辺文脈からの優先解釈の決定
　　辞書項目を選ぶ場合に、周辺を見て選ぶ→スーパータギング

優先探索を木構造作る過程でやるより、
木構造は作ってしまった後で項目選択時にやる。

スーパータギングのモデルにフィードフォワードする等でより高度に発展させると、
ユニフィケーションせずに探索問題として解けて、効率も良いシステムが作れる可能性。
統合的なモデルから段階的なモデル、
初期の段階で豊かな情報を参照するモデルが高効率な処理モデルになり得る。

述語-項構造は、より深い構造へと情報を写像するためのインタフェース表現となる。

巨大な学習データがあっても良いと思うが、
人間は、巨大な学習データを必要としないように見える。


Q: 安易に機械学習で何かをまとめて学習するというアプローチはそもそも
　無理筋じゃないかというのは全く持ってその通りだと思う。そこを人間が
　試行錯誤的にデザインしている部分そのものを機械化してしまえば、
　と思うが、それでも計算リソース的には厳し過ぎるのだろうな。
　そもそもそこを定式化（≒システム化）できていないわけだし。



会場Q: 生命科学の分野に特化されてイベントへのマッピング等をやる場合、
　一般の場合にはどう手をつけたら良いかがまた悩ましい。どうアプローチ
　したら良いか。
A: ドメイン特化知識と一般言語を繋げる所に、もう少し意味が寄与している
　ように思う。言語だけでも知識だけでもないような部分を捉える必要がある。
　ただし直接的にやろうとすると非常に粗い研究テーマになるので、
　今はドメインでやってみたい。ワトソンも、かなりドメインを絞った特殊化
　されたシステム。事象は何か、関係とは何かというのはまだ早いかなという印象。

会場Q: 巨大なデータを必要としないという点について、確かに巨大データを
　食わせるのはどちらかというと嫌。ただ食わせるだけではなく、裏にある
　何かについてもデータを必要としない考え方や枠組みが必要ではないか。
　スーパータガーのモデルをどう作るか。
A: 巨大データの是非については議論の余地がある所。巨大データは知性とは
　全く違うので、人間には無いような何かを持つ可能性もあり得る。
　何かヒントが見えるところは否定できない。何をストラテジーに研究するか
　ということ考えると、ドメイン・アダプテーションについて、比較的早く
　適用するというタイプの研究もあり得ると思う。個人の話としては、
　巨大データを食わせてドメイン特化モデルを別分野に適用する際に、
　なるべくかかるコストを少なくしたい。ある種パラメタライズされた
　ようなモデルかもしれない。パラメタさえ分かれば調整できる、
　そういう感じのことをやりたい。








P3: ポスター(3)

P3-3 英語論文表現データベースを用いた分野横断的ムーブ分析 (pp.591-594)

○金丸敏幸, マスワナ紗矢子 (京大), 笹尾洋介 (ヴィクトリア大), 田地野彰 (京大)
論文の構造が「背景→目的→、、、」とかIMRDという順番になっているかを
大量文献＆人海戦術で調査してみたという話。アノテーション自体に揺らぎが
多く含まれているっぽいけど、こういうのが積み重なると、
「こういうストーリー構成の物語を読みたい」みたいな検索ができたりするんだろうか。

P3-4 語の共起を効率的に検索できる日本語作文支援システム「なつめ」の紹介 (pp.595-598)

○阿辺川武 (NII), ホドシチェク・ボル, 仁科喜久子 (東工大)
当初は留学生向けの作文支援ということだったようだけど、
特に留学生に限定する必要ないよねということで表記のタイトルになってるらしい。
限定する必要が本当に無いのかが気がかりで質問してみたのだけど、
本当の所はどうなんだろう。

P3-8 短答式記述答案の採点支援ツールの開発と評価 (pp.611-614)

○中島功滋 (ベネッセ/CRET)
比較的単文（1文とか2文？）を想定した採点支援のため、
クラスタリングすることで似たような回答群としての提示と、
参考回答とのBLUE距離で参考採点付けてみたらしい。
問題文も利用できそうなんだけど、そこは手つかずっぽい。

P3-10 汎用アノテーションツールSlate (pp.619-622)

○Dain Kaplan, 飯田龍, 徳永健伸 (東工大)
多分、嬉しいツールなんだと思うけど、
「こういうアノテーションにはこういう属性名付けると良いですよ」
みたいな推薦までサポートしないと使い難そう（アノテーション結果を
利用するユーザにとって使い難そう）な予感（勝手な想像）。
クラウド的にアノテーションされたデータ蓄積しまくって、
傾向抽出すると面白そうなんだけど、どうなんだろう。

P3-11 『日本語話し言葉コーパス』における話題導入表現の形態統語論的特徴と談話構造の分析 (pp.623-626)

○高梨克也 (JST/京大)
面白そうなんだけど客多数で話聞くタイミングが合わず。後で読もう。

P3-12	複数の客観的手法を用いたテキスト含意認識評価セットの構築 (pp.627-630)

○宇高邦弘, 山本和英 (長岡技科大)
逆説的なのか自分自身で良く分かってないですが、
主文から推察できる事象を、その確度と共に生成できると便利そうなんだけど、
同じ話なんだろうか、違う話なんだろうか。

P3-21 長単位に基づく『現代日本語書き言葉均衡コーパス』の品詞比率に関する分析 (pp.663-666)

○冨士池優美, 小西光, 小椋秀樹, 小木曽智信, 小磯花絵 (国語研)
素性に「形態素、句、節」といった単位とは別（？）に、
「短単位、長単位」という言語単位があるっぽい。

P3-29 筆跡とパーソナリティの多面的対比 (pp.691-694)

○高野孔司, 久野雅樹 (電通大)
心理学？だかである程度の傾向はあるものと解釈するのが正しいのだと
思ってましたが、そうでもないのかしら。問題設定（テスト環境の設定）
次第でどうにでも解釈が変わりそうでもあるので、そこら辺の話が気になります。

Tags:イベントレポート, 学会, 自然言語処理
Posted in イベントレポート, 学会, 日記, 研究 | Comments Closed

NLP2011, 本会議1日目終了（セッションB1: Web応用）

火曜日, 3月 8th, 2011

NLP2011、本会議1日目（一般講演セッション1つ＋招待講演1つ＋ポスターセッション2つ）。
これ書いてる時点ではまだ終了してないですが（ごめんなさい）、
ポスターセッションで見たかったものは見て終わったので、今日のまとめ。

例によって青字は個人的な疑問等、赤字は会場質疑応答です。

目次
・B1: Web応用
　・質問で不足している情報を回答で指摘されたユーザが再投稿した質問の調査
　・ブログにおけるコメント先の解析
　・大規模Web情報分析のための分析対象ページの段階的選択
　・情報分析システムWISDOMのユーザ評価とその分析
　・言論マップ生成技術の現状と課題
　・Web文書の時間・論理関係分析に基づく情報信頼性判断支援システムの開発と実証実験
　・クエリログの時系列情報に基づくキーワード修正リスト生成手法
・招待講演1: ゲノムを読む、榊佳之氏（豊橋技術科学大学学長）
・P1: ポスター(1)
・P2: ポスター(2)




 B1: Web応用
B1-1 質問で不足している情報を回答で指摘されたユーザが再投稿した質問の調査 (pp.33-36)

○小島正裕, 水野友之, 渡辺靖彦, 岡田至弘 (龍谷大)

情報が不足している質問
・不足している情報の指摘
・指摘を利用した質問作成支援システム（最終目標）
→今回は調査報告

直接的に解決する回答ではないが、
解決のための状況確認を促すコメントの割合が多い。
→さらにその中でも
　「質問者がそもそも知らなかった情報」よりも
　「知っていたが記述していなかった」割合の方が多い。
　→質問することで指摘すること自体で良質の質問を行えるのではないか。


Q: SVMで何かを学習するようだけど、入力は質問文だとして出力は何だろう。
Q: 質問カテゴリを「パソコン・周辺機器」に絞ったことで「質問での説明
　が不十分」になりやすいという傾向が無いか？
Q: 「質問での説明が不十分」であることを指摘する際、何が十分でないの
　かを伝えることが適切かはどのように判断するのだろうか？



会場Q: 今回の事例は、全体の中でどのぐらいの割合なのか。
A: 4,000件/100,000件（多分）。
会場Q: これはシステムが検出した件数だと思うが、coverage は
　どのぐらいかは調査しているのか。
A: まだしていないが、大凡の傾向としてはこのぐらいだと認識している。
会場Q: 最終的にこの結果をどう使いたいのか。情報が不足している
　という指摘を自動的にしたいとのことだが、質問する（質問だけ
　を見る）段階なのか、ペアを見て分かるようにしたいのか。
A: 両方。
会場Q: ペアを見ないと分からないというのでは余り面白く無いの
　では。回答が無い状況で指摘できるようにはならないのか。
　現状のシステムではどうなる？
A: 現状ではまだ動いていない。
A: 予想する所はかなりいけている。しかし、不足している情報の
　可能性がいろいろあって、どれから出したらユーザに取って便利
　なのかというところが良く分からない。良い答えが返っているの
　はどういうペアの時かという情報から重み付けることで、優先度
　を付けることができるだろうと考えている。




 B1-2 ブログにおけるコメント先の解析 (pp.37-40)

○津野優佑, 徳久雅人, 村田真樹 (鳥取大)

情報収集の際、ブログ記事本体だけでなく、コメント部にも有益な情報がある。
ただし、コメントが何（記事本体or先行コメント）に対する情報かが分からない。
→コメント先の解析
 着目点
・文章内容の類似度
・ブログ記事の特性（コメント先や相手名を明示する慣習など）利用
・共通名詞の利用（コメント中の共通名詞） Okapi BM25 によるスコア利用
・共起語の利用
・文末表現対の利用（コメント元コメント先の文末部分3文字を利用）
　e.g., 〜ですか？  〜ですよ


Q: テスト用正解データを人手で作成しているとのことだが、厳密な正解
　が判断しづらいケースもありそう。どういう例があったのか。
Q: 複数手法の組み合わせ方を優先順位として決定しているが、重み調整
　して利用することはできないのか。



会場Q: コメントにはブログの記事本体へのコメントや、コメント間
　コメントもあると思う。今回は本体へのコメントは扱わなかったのか。
A: 今回は本文もブロックの一つとしており、扱っている。
会場Q: 本文はコメントより長いが、その影響は無いのか。
　式が変わってくるとか。
A: 文長によってスコアや特徴量が変わるというのは、文長によって
　調整してくれるため影響は小さいと思う。

会場Q: 単純に、新しいコメントであれば本文に繋げるといった
　ナイーブなルールは使用していないのか。
A: 提案としてはあったが、今回は利用していない。
会場Q: 「＊＊さん」といったことを付けないと行けないのは、複雑な
　時には効くと思うが、そうじゃない時には前のその人のものという
　アドホックなものでどのぐらい精度が出るのか。そこがベースライン
　になりそう。そこでどれぐらいの精度になりそうか。
A: コメントを確認していた限りでは、コメント先を明示していない
　ことが多いので、さほど差が無いと考えられる。
会場Q: コメントが10も20もある場合は別だが、数個の場合には
　ほぼ本文じゃないか。
A: コメント2は本文かコメント1へのコメントである場合だけでなく、
　全く関係ない話題へのコメントでもあり得る。
会場Q: 問題の難しさを示すためにも、先に示したアドホックな方法で
　どのぐらい精度が出るかを示した方が良いと思う。

会場Q: コメントや本文を大きく一塊にしているが、塊の粒度を変える
　ことに対してどのぐらいロバスト性があるか。
A: 発話単位でやっているが、対象としてる文の範囲を帰ることも可能だと思う。
会場Q: リスト順位のトップを変更したケースも試していれば、
　その結果についても知りたい。
A: 今回は試していない。




 B1-3 大規模Web情報分析のための分析対象ページの段階的選択 (pp.41-44)

○赤峯享 (NICT/NAIST), 加藤義清, 川田拓也, レオン末松豊インティ (NICT), 河原大輔 (京大/NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT)

WISDOM「誰が、何を、どう評価／主張しているか」
分析基盤
　10億ページ／2億の構文解析済みページ
　スパムページやカタログページばかりでは有益じゃない
　→ページ選択が重要
 Web検索：検索結果の上位数ページ
Web情報分析：上位数百〜数千ページが影響度高い
・品質の高いページ
　フィルタリング（カタログ、スパムページやduplicateを除外）
　重み付きサンプリング（PageRank等）
・更新同期の取れたページ

選択精度を上げるには、メタ情報だけでなくテキスト内容を利用する方が有利。
だが、計算コストが高い。
→仮定：サイト中の一部のページ品質≒サイトの他のページ品質
　段階的に選択を行うことでコスト削減。


Q: ページやコンテンツの質に関連しそうな付加情報として、ブログや
　ツイッター等での「likeやfav」といった付加情報や、delicious等へ
　の登録等様々な付加情報が増えてきていると思う。このような他ユ
　ーザが直接的にインタラクションを行った情報を利用することは
　困難なのか。



会場Q: 品質の高い、分析に役立ちそうというのと、Webの何を対象
　にして分析したいのかに依存しそうだが、罵詈雑言みたいなのも
　取りたいということもありそう。どういう立場で役に立つ・立たない
　というのを考えているのか。
A: 質の良い罵詈雑言があるという段階ではなく、自動生成された
　duplicate/カタログページをまず取り除きたいというのが第一段階。
会場Q: 結果で示した20〜30％というのはそれに該当するページ？
A: 殆ど無駄になるページ。

会場Q: 適格／不適格ページを人間でもある程度判断できたとのこと
　だが、ケース次第で変わることもあるし、判断のぶれもある。
A: 本当にみんなが低く入れたページは、テキストは含まれているが
　2,3文だとか。人によって品質が違うというレベルまでは現れて
　いない。人によって判断が変わるという部分は、さらに分析後で解決する。




 B1-4 情報分析システムWISDOMのユーザ評価とその分析 (pp.45-48)

○川田拓也 (NICT), 赤峯享 (NICT/NAIST), 河原大輔 (京大/NICT), 加藤義清 (NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT), 木俵豊 (NICT)

http://ici.wisdom-nict.jp/
続き発表。WISDOM概要と、その評価について。
Webを利用した意思決定を如何に支援できるか。
意思決定プロセス[Simon 1977]に応じた支援技術の開発
・新たな行為を必要とする状況の設定
・可能な行為の代替案の探索・発見
・その中から選択する過程


Q: 玉石混淆の中から情報を選り分けるというタスクにおいて、Web上の
　データ以外の知識は利用しているのか？　もし利用しているならばど
　のようなものか？　利用していないならば、Web上のバイアスを避け
　ることは困難だと思うが、それは問題にならない？
Q: 選り分けの支援とは一種の情報推薦に相当すると思うが、ユーザの属性
　を考慮すして支援することはできないか。例えば、人の属性毎にどの
　ような選別をしやすい（することで理解しやすい）形式や、必要とす
　る項目は限定されているといったことはできないのだろうか。
　→多角的総合的に分析した結果を提示することで代替している。
Q: アンケート評価を行っているが、実際に情報収集・分析するのに要する
　時間や労力には違いが見られたのか。
　→調査時間も計測しているが、厳密には評価していない。調査自体が
　　いい加減な人は評価がばらばらになりがちというのは見られた。



会場Q: アンケート評価一般100人について、意思決定にも色々あると
　おもうので、ユーザ層を絞って評価してみては。
A: 敢えてユーザ層をばらけさせている。そもそもどういう意思決定が
　あるかを知りたいということと、層毎に質的な差異があるならそこも
　確認したい。





 B1-5 言論マップ生成技術の現状と課題 (pp.49-52)

○水野淳太 (NAIST), Eric Nichols, 渡邉陽太郎 (東北大), 村上浩司 (楽天), 松吉俊, 大木環美 (NAIST), 乾健太郎 (東北大), 松本裕治 (NAIST)

目的：ユーザの情報信憑性判断を支援
検索された情報を、クエリと意味的関係に基づいて分類し、俯瞰的に表示
　同意／対立、根拠、弱対立

言論マップ生成
　係り受け解析
　述語構造解析
　拡張モダリティ解析
　局所構造アライメント
　関係分類
　修辞構造解析

対立関係精度はまだ不十分
　海面が上昇する下がる：は認識できる。
　海面が上昇する変化しない：は推論が必要。


Q: 同意／対立／弱体率、という視点からトピックを分析しているが、
　何故この視点を選んだのか。
Q: 信憑性判断を支援するために多角的な意見を俯瞰的に提示する
　ことの評価として、絶対的な基準を設定することは困難かと思うが、
　それを考慮しても評価方法は妥当か？（ある程度の軸を提示する
　ことで十分だと判断しやすいという傾向を見ているだけではないのか）



会場Q: アライメントが大事とのことだが、理由の所はそもそも
　パッセージ検索で違うのが取れてしまう？
A: 述語の対立が大変。
会場Q: ユーザ評価について、悪い評価をしたのはどういう例があったか。
A: 基本的には高評価で、悪い評価をしたのは精度やインタフェース
　への指摘、ソースが欲しいといったコメントを頂いた。

会場Q: システムのスピードはどのぐらいか。
A: 検索対象文をどのぐらい取ってくるかにもよるが、1クエリで2〜3分。

会場Q: 対立意見を取ってくる所の評価が低いようだが、モダリティ解析が困難？
A: 基本的にはモダリティが困難だが、そもそも述語の対立語彙知識が
　他と比較して少ない。あるドメインでは対立しているが違うドメイン
　ではそうでもない、こともある。





 B1-6 Web文書の時間・論理関係分析に基づく情報信頼性判断支援システムの開発と実証実験 (pp.53-56)

○岡嶋穣, 河合剛巨, 中澤聡 (NEC), 村上浩司 (楽天), 松吉俊, 水野淳太 (NAIST), エリック・ニコルズ, 渡邉陽太郎, 乾健太郎 (東北大), 渋木英潔, 中野正寛, 宮崎林太郎, 石下円香, 森辰則 (横浜国大)

WISDOMと相補的なシステム。
情報信頼性判断を支援するシステムの開発と実証実験。
「どうしてその意見を言っているのか」
根拠／理由／切っ掛け／etc.

根拠→言論マップ
異なる意見が生じる理由→調停要約
意見を変えた切っ掛け→意見変化イベント抽出


Q: アンケート評価しているが、ある程度満足できれば高評価するのは
　当然で、システムとして適切な結果を提示出来ているかの評価とし
　ては不十分では？（そもそも絶対的な正解がある問題では無いと思
　うが、何かしら客観的な正解を用意できないか？）



会場Q: トピック毎に分散があることが何を主張したいのか良く分から
　ない。調べ方が難しい？価値判断しづらい？
A: その2つの側面があり、調べ方が難しく既存システムだと何波ターン
　かクエリを試す必要がある。価値判断については、自分は賛成だから
　賛成だけを見たい、若しくは逆に反対意見だけを見たい、といった
　ことが考えられる。
会場Q: 提案システムと既存システムとで分散が異なるというのは、
　ユーザの行動が違うのか？
A: それぞれのユーザが賛成意見だけを見たい意見だった場合反対の意見
　が低くなることが考えられるが、どちらも網羅的に提示しているため
　分散が少なかったと考えられる。

会場Q: 分散分析してみた？
A: 統計的優位性についてはまだちゃんとはやっていない。
会場Q: 男女性別が影響しているか、年齢が影響しているかとか見れる
　かもしれない。
A: 正確な分析はしていないが、世代や職業については調べてた範囲では
　大きな差は見られなかった。

会場Q: 大きなモジュールとして3つあるが、これで十分なのか、まだ
　不足していて何か追加が必要なものがあるのか。
A: 難しい。この他にも画像系の処理しているグループもある。
会場Q: 自由回答で「こういうのが欲しい」というのは無かった？
A: 発信情報の信頼性ソースが多く、他には特に無かった。





 B1-7 クエリログの時系列情報に基づくキーワード修正リスト生成手法 (pp.57-60)

○平手勇宇, 竹中孝真 (楽天)

キーワード修正アルゴリズム：もしかして検索。
文字列距離で多くはうまくいくが、例外もある。
「桃らー」→「辛そうで辛くない少し辛いラー油」
→文字列上の距離が大きいキーワードに対して、クエリ修正行動を利用。


Q: 未知語抽出や同定と同等課題？



会場Q: Googleでもクエリの書き換えということでコメント。適合率80％
　は甘くて、世の中では99％じゃないとダメ。極端な事例だが訴えられる
　こともある。書き換えパターンを拾っていくと、言語モデルが小さい
　ので類似パターンが多く見つかる。一つ一つのインスタンスを見るの
　ではなく、同じような書き換えを行っているといった全体を見れば、
　精度も高くなると思う。
A: 人手でチェック済ませた後で登録するので、この段階では80％ライン
　で多めに出した。追加した後のクエリログ見ることで、クエリがクリック
　されなければ違うという判断もできるかと思う。キーワード間距離を
　拡張する上でコメントについても検討したい。

会場Q: 読みが々で違うとか、タイポの割合はどのぐらいか。
A: 感覚としては3割ぐらい。残り3割（？）は商品名メーカー名。






招待講演1: 「ゲノムを読む」講演者　榊佳之 氏（豊橋技術科学大学学長）

当初は個別に「どこそこに遺伝子を発見した」が行われ、
全体が見えないままに試行錯誤的に着手されていた。
このままでは拉致があかないので、
・国際的に協力し合い、
・各国で責任を持って取り組む箇所を分担し、
・解読したゲノムを無償公開
する形で取り組んだ。（すばらしい！）

サンプル調整→配列決定→データ処理・編集→サンプル調整の繰り返し。
各プロセスで異なる長所が求められる。
→大規模センターではデータ生産の効率性を高める工夫

ヒトゲノム解読のレベル
・何処に何が書かれているか。
　これ見ただけでは意味付けがサッパリ分からない。
(1)ゲノムの基本要素を見つける（遺伝子／発言制御エレメント／その他）
・人間だけ見てると分からないが、
　例えばハエとかマウスとか、人間以外と比較することで分かることも多い。
　→比較ゲノム解析
　　割と共通している部分が多い。
　　脊椎動物における制御配列が浮かび上がってきた。
(2)基本要素の機能を知る。
　遺伝学的な手法（正遺伝学／逆遺伝学）
　　遺伝学：遺伝子と表現型の関係を推論する科学
　　遺伝要因／環境要因
　　→個人差問題
　相同性からの推定（相関解析法）
　　個人差10％なら該当件数数万。
　　1％なら該当件数が数千万単位。
　　何千万分布の偏りはどうなっているか。
　　→例：脳梗塞/糖尿病になりやすい関連遺伝子は？
　　　ただし要因自体が多岐にわたるので、特定の人達を集めて観察し、
　　　リスクファクターを特定するといった工夫が不可欠。また、
　　　本当に直接要因なのかといった、因果関係の調査も必要。
　相互関係からの推定
(3)遺伝子制御システムを理解する
　階層性
　正と負の制御
　頑健性
　　スケール・フリーなネットワーク構造
(4)これらはまだ静止画。本当の生物は動画。ダイナミックな関係図を描く必要がある。
　システム・バイオロジー（現在盛ん）

ヒトゲノムが全て読めたことで、
個別事象を全体との関連で捉えることができるようになった。 
テクノロジーの発展
　30億塩基の収集に、2002年で1200日程度かかったのが、
　2008年には2日、2010年には数分でできるようになってきた。
　→全日本人のゲノムデータも集積可能な段階に
　　必要に応じて個々の解析を検討することも視野に。
　→代謝経路予測
　　Synthetic Genomics
　　最適のゲノムを構成し、目的に合った最適な生物を構成して
　　利用することもできるのではないか。
　　→細菌ゲノム完全合成の例


会場Q: 経路が良く分かるという話について。経路が分かるためには、
　かなり多くのタスクが集約されていると思う。NLPにおける言葉に
　置き換えるとそこは並大抵の努力ではないように見える。これは
　どうして可能になったのか。
A: 基本的には物質を分解する経路。徹底的に遺伝子を調べられて、
　基本骨格がある。それからの相同性、相反性、既存経路との関係性
　から求めていった。基本骨格、例えば大腸菌とかがあり、そこから
　積み重ねていった。

会場Q: DNSシーケンスやる時には馬力のある人とか様々な人が必要
　になるようだが、NLPでもそうだと思える。そこをうまくやる
　というのは、眼力を持った人がやる？
A: 眼力もあると思うが、まずは3つのプロセスともやらせる。その上で
　向き不向きを見ていく。全体を理解してもらうのが大切。パートだけ
　入ると何のためにやっているのかが分からない。







P1: ポスター(1)

P1-12 意見の重要度と客観的補足情報を考慮したレビュー要約 (pp.204-207)

○唯野良介, 嶋田和孝, 遠藤勉 (九工大)
「属性毎に数値評価＋自由記述文」で構成されるレビュー群を要約するという話。
【重要語(TFIDF)＋分類(クラスタリング)＋集約(セントロイド文選択)】
に属性毎の数値評価も組み合わせたやつは評価自体の揺れもあって
あまり精度が高くならなかったとのこと。
数値評価を除いた方法で重要文選択するところは比較的良かったっぽい。

P1-13 直接調停要約自動生成システムHERMeSの言論マップとの連携 (pp.208-211)

○石下円香, 渋木英潔, 中野正寛, 宮崎林太郎, 永井隆広, 森辰則 (横浜国大)
ある2つの対立意見について、実は対立しているのは異なる軸であって、
そこを考慮した要約文（直接調停要約）を自動生成しようという話。
解析対象を「全体集合：肯定文書群：否定文書群」の3パターンに分けて、
各々で特徴語抽出。単純な頻度ではうまくいかないが、ランキング＋差分
で見るとうまくいくケースが見られてきた（いかないケースもあるが）。
ということらしい。

P1-14 直接調停要約自動生成システムHERMeSの対比表現を用いた精度向上 (pp.212-215)

○永井隆広, 渋木英潔, 中野正寛, 石下円香, 宮崎林太郎, 森辰則 (横浜国大)
精度を高めるために対比表現
　接続詞：だが、しかし、、、
　接続助詞：けれど
　その他：ではなく、逆に、、
を加味してフィルタリング処理で、ある程度効果があったらしい。

P1-16 テキストの内容を表す記述要素の自動生成手法の検討 (pp.220-223)

○久保木武承, 山本和英 (長岡技科大)
単にキーワード検索するだけだと提示される文書群が欲しいページなのか
分からない。それを補助する目的で「テキスト内容を表す記述要素」を
定義し、それを自動生成＋自動付与する基礎実験をしてみた、という話。
スニペットや要約とはまた違った視点という意味で面白い。

P1-19 Twitterからの自動車の不具合情報抽出 (pp.232-235)

○北林智治, 酒井浩之, 増山繁 (豊橋技科大)
(1)該当文が不要か否か、(2)Twitter特有の言い回しか、
(3)文に含まれる単語対は何か、(4)抽出条件に合致するか、
といった工程を経て情報抽出するという話。
綺麗に整えたアプローチ。





P2: ポスター(2)

P2-1 共起要素のクラスタリングを用いた分布類似度計算 (pp.292-295)

○大平真一, 山本和英 (長岡技科大)
単語共起を利用して「単語同士の類似度」を求めましょうという話。
良くありそうな話だとは思うけど、ノイズ除去するための工夫を加える
ことで先行研究よりエラー低減したらしい。


P2-5 述部機能表現の意味ラベルタガー (pp.308-311)

○今村賢治, 泉朋子, 菊井玄一郎 (NTT), 佐藤理史 (名大)
範囲同定と曖昧性解消を同時にやりましょうというアプローチが面白い。
フレーズラティス（表層形＋意味ラベルをセットにしてラティス
構造として扱う）を構築して、最尤パス探索問題に落とし込む。
素性には表層形ベースのN-gram素性と、ラティス周辺情報としての
マッピング素性2種類の合計3種類で構成しているっぽい。


P2-7 日本語格解析において問題となり得る諸現象の定量的分析 (pp.316-319)

○花岡洋輝, 松崎拓也 (東大), 宮尾祐介 (NII), 辻井潤一 (東大)
「深い構文解析」をするための定量的分析。超お疲れさまです。
項-述語構造が構文木的に遠い所にある関係が取り難いよね、
それをどうにかしようというところへのワンステップっぽい。
spainホップ数という距離を導入することでどのぐらいcoverage
が見込めるかを大規模に調査したらしい。

Tags:イベントレポート, 学会, 自然言語処理
Posted in イベントレポート, 学会, 日記, 研究 | Comments Closed

NLP2011, チュートリアル終了

月曜日, 3月 7th, 2011

NLP2011の一日目（チュートリアル）が終了しました。

チュートリアルというだけあって分かりやすい言葉で話されてるケースも多いのですが、濃い話が長時間に渡って続いたので途中から自分で咀嚼することができなくなってる部分が多数。頂いた資料には参考文献も多数示されているので、適宜参照しないと。

今日一日の感想としては、NLP（自然言語処理）というキーワードで括っていても研究対象やアプローチが多種多様なのを体感でき、自分がやろうと思ってることも、よりブレイクダウンして考えないと前進することが困難だということ。前進できたとしても討論の場に持ち上げることができず、「試してみました」だけな話になってしまいそうなこと。一方で、その討論のために評価を厳密にやることが困難なテーマも多数ごろごろしてることが良く分かりました。評価困難だとしても、取りあえず第三者が使えるようにツールを公開してしまうことでリアクション得られてより進みやすくなるというのも、その通りだよなと再確認。やること一杯あって、ある意味幸せですね。

以下に、今日のチュートリアルに関するメモと、質疑応答関連のサマリを残しておきます。

青字で冒頭に「＊」や「Q:」が付いてる箇所は個人的な疑問やコメント。
赤字は会場内での私が意味を汲み取れた質疑応答。

「強化学習の基礎と言語処理への応用」伊藤秀昭氏（佐賀大学）
「形式意味論の考え方とその変遷」戸次大介氏（お茶の水女子大学）
「Understanding sentences in Japanese」Edson T. Miyamoto 氏（筑波大学）
「言語生成研究の動向」徳永健伸氏（東京工業大学）
更新ログ



(T-a) 3月7日(月) 11:00〜12:30　司会：高村大也（東工大）

「強化学習の基礎と言語処理への応用」伊藤秀昭 氏（佐賀大学）

試行錯誤により報酬を最大化する行動を学習する。
教師あり学習と異なり、明示的にどの行動が最適化は与えられない。

＞一段の決定問題（bandit problemの例）
ここでは観測は無し。
強いて言うなら2台のスロットマシーンがあるということを観測する。
＊報酬自体も観測の一部だと思ってたけど、独立して考えるのね。

最初から期待値が求められるなら計算したら良いが、ある行動を選択した
際に得られる報酬がどの程度見積もれるか分からないときに、最適な行動
を学習したい。
→行動価値の推定

・exploitation vs. exploration
回数が少ないうちはQ(a)はあまり信頼できない。
　arg max(Q(a)) を選ぶべきか（greedy action）
　それ以外の行動を選んでQ(a)をより正確にするべきか（exploratory action）
　→厳密な解決（様々な要因により異なる）は困難。近似解を考える。
　　ε-greedy法
　　softmax法


Q: 報酬が変動するような場合にはどうなる？
　・短期的変動／中長期的変動とかケースバイケース？
　・多段決定問題と等価？
　　・割引率の推定/調整問題？


＞多段の決定問題（三目並べの例）
・1段決定問題との違い
環境：agentの行動により影響を受けるもの＋agentに観測と報酬を与えるもの。
報酬：行動の評価はすぐに得られるとは限らない。
→1回のplayでどのぐらい報酬が得られるかを推定。

・遷移グラフで全局面を網羅生成
○と□で表現された経路には、観測と行動の履歴を対応付けることができる。
各履歴の生起確率は、各行動and各観測がどの確率で得られるかに依存。
ある履歴o1において行動a1を選ぶ関数π((o1),a1)を政策と呼ぶ。
最適なπ()を学習するのが目標。

・観測関数
ある行動を選択した結果、どの観測に遷移するか（相手がどの手を選ぶか）を観測関数と呼ぶ。
政策と観測関数から、履歴の生起確率が求められる。

・エピソード
履歴の中で終端まで到達したもの。

・報酬関数
ある履歴において行動aを選択したとき、直後の報酬がある確率分布に従って得られるとしたもの。
　報酬の割引率（遅く勝つより、早く勝つ方が良い）
　割引率を加味して、各エピソードの報酬和を評価。


Q: 単純に割り引くことでデメリットは無いか？
　・例えば一時的に負けるが最終的に勝てるような行動履歴は得られる？

・期待報酬と最適policy
　報酬関数と履歴の生起確率から期待報酬を求めることができる。
　ランダムpolicy→常勝policyへ。
　　環境＜A,O,o(1),θ,R,γ＞：固定
　　V^π=E{R_e|π} を最適化
　　→いろんな解法がある。

＞解法1: direct policy search
policy π(h,a)は履歴hと行動aから確率への関数だが、膨大なので近似が必要。
近似の仕方は工夫のしどころ。NNやlog-linearモデル等。
→πがθでパラメトライズされた近似 policyを、π(h,a:θ) や単純にπ(θ)と書く。
　勾配法：このままでも計算量多いので更に近似→確率的勾配法。

＞言語処理への応用 [Branavan 09]
Windowsのヘルプ文章→文書の指示通りにWindowsを操作。
その文章から操作への写像を学習。

観測：文書のみ処理部分の一部＋PC画面の情報
行動：PCへのコマンドと、文書のどの部分を処理したかの情報
報酬：操作の正しさをチェックするのは困難なので、工夫。
　負の報酬
　　アイテムに対応していない状況に陥った場合、それ以上操作を続けられない。
　　行動数。
　正の報酬
　　多くの単語を処理できた場合。

Q: （パッと見だけど）文書を処理する順番は考慮していない？


会場Q: どのぐらい学習を繰り返せば良いのか。仮定をおくことで理論的な終了
　タイミングは分かるのか。
A: 最適値が観測できる場合には分かるが、一般的には観測できないので、分からない。

会場Q: 強化学習ではロボットでインタラクションがある時に良く使われているが、
　そういうインタラクションが無い場面ではどういう用途に使われている？
A: 資料最後にある対話システム [Young 10] が一つの例。バーチャルな世界にモノ
　を作っている。バーチャルな世界でも複雑になってくると計算困難なので、擬似
　的に最適値を学習させたい。
会場Q: ユーザの反応を取り込んでいる？
A: この例では Simulated User を作ってやっている。

会場Q: 言語処理における強化学習の応用として、どの辺りに可能性がありそうか？
A: 対話処理では結構使われている。それ以外にも人間が関わるいろんな所に使える
　のではないかと、漠然と考えている。

会場Q: 集団での対話は、1対1の対話からやる強化学習とは少し異なるように思うが、
　そこは余りやられていないように思う。これはやるべきなのか、やらない方が良いのか。
A: 全てをRLでやろうとするのは大変。表面を見るといろんな情報が入り込んで複雑
　に見えるが、うまく抽象化ができれば、例えば質問するとか挨拶するとか、そうい
　う単純な形で書けるならRLしやすい。それ以外のケースではRL以外も検討し、
　上手く使い分けすることが良いのでは。







(T-b) 3月7日(月) 13:30〜15:00　司会：宮尾祐介（NII）

「形式意味論の考え方とその変遷」戸次大介 氏（お茶の水女子大学）

＞背景と形式意味論
自然言語の「意味」は多様な側面があり、直接研究対象とするのは困難。

2文の間に演繹関係があるか。
1文目（包含する方）が真ならば、演繹関係がある副文も真。
これを論理的演繹として定義することが形式意味論の第一ステップ。
形式意味論とは、含意関係を予測・説明する理論。
　・意味的含意
　・会話の含意

＞モンタギュー文法（PTQ）[Montague 1973]
PTQは形式意味論ではない。→形式意味論である。by @kaleidotheaterさん
モンタギューを否定しながらも、PTQのアプローチを参考にしながら厳密な形式意味論をやる。

PTQ：シンタックス＋セマンティクス(IL)
IL：一階述語論理＋様相論理＋型付きラムダ計算

＊前半20分ぐらいから既についていけてない。。（涙）
→ひたすらPTQの気持ち悪さを感じて欲しいというのが趣旨だったらしい。orz

PTQ自体は不完全なものだが、
スコープ分析の仕方は面白く未だに似たようなアプローチが多い。
また、これを「de re読み」と「de dicto読み」に応用した点がエライ。
らしい。

初の「構成的意味論」(compositional semantics) を提示することで、
意味論が反証可能になった。
それまではある文→論理式への写像があやふやだったが、
初めて単語レベルからの写像を提示した。
「論理では自然言語が扱えない」という議論に対し、
恐らく初めて提示した論文。

PTQは沢山問題があるが、
反証＆修正という歯車が回り始めることで現在の発展につながっている。
"Generalized Conjunction", "Type Raising", etc.


会場Q: センテンス→文章の意味、文と文の意味を扱うことについてどうやったのか。
A: 今回の話は80年代だった。文と文を繋いでしまって一まとまりとして扱うのも
　やられているし、どう切り分けるかについても様々なアプローチがある。DRP(?)。
　Compositional なDRPが無いかということについては90年代以降やられている。

会場Q: (1)使う立場からすると「分からない」のが大問題で、難し過ぎて使えない。
　力学だと古典力学／ニュートン力学・・・と進んでいるが、多くの場合は古典力学
　で十分。形式意味論についても、ある程度小さいものならこれぐらいの複雑さでOK
　というものがあると助かる。
　(2)スコープについて、人間が読んでも良く分からないものもある。自然／不自然言
　語処理。良く読むとこういうことかもしれないというものについて、
　何かしら考えがあるか。
A: (1)難しいからではなくて、完成していないからだと思う。量子力学やればできる
　というような統一された世界が無い。計算的側面も欠けている。全部の現象を考え
　ていないから、ブレイクスルーが起きていないのだと思う。統一した瞬間簡単な
　ものになると考えているので、そこを目指している。
　(2)はっきりとした理論ができた後の話かもしれない。

会場Q: 一般全ての文例を説明することへのチャレンジはとても大切なことだと思う。
　その手続きの詳細を理解できる人は少ないかもしれないが、パッケージして使える
　ようになれば利用者も増え、発展しやすくなるのでは。
A: 形式意味論で扱っているというのは、分野に限らず全部についてやっている
　というより、言語を扱う以上そこを避けて通ることができないのだと思う。
　まず「意味」が良く分かっていないから、こういう風にやっている。
　そもそも「意味」をどう書くか、どういう振る舞いを持つ演算として書けるか。








(T-c) 3月7日(月) 15:15〜16:45　司会：高村大也（東工大）

「Understanding sentences in Japanese」Edson T. Miyamoto 氏（筑波大学）

どのように文を理解するか。
眼球運動（大人）の場合
　単純な環境（pick up the candy）似たオブジェクトcandle
　→似た単語のオブジェクトがあると230ms
子供（赤ちゃん）の場合
　何度、どのぐらいintensionを持って見るか。
　遮るものがあると隠れるという知識の有無。
　驚く飽きる

Neurolinguistics
　brain lesions/fMRI/PET/MEG/EEG
Reading times
　silent reading -> eye movements not smooth: fixations, saccades
　仮説：longer reading times=more difficulty
　→Self-paced reading
　　eye tracking とボタン押した回数とを、文節毎に比較

Human parser
　(1) cognitive resources
　(2) knowledge bases (grammar, social conventions, world knowledge)
　仮説：言語の違いは(2)のみに依存→(2)のみを学習すれば良い。
　　英語の例
　　日本語の例
　　→alternative rules I (head is crucial), II(processing is incremental)
　　　客を（ヲ格）／客に（二格）で他単語を見る頻度（≒他に着目する頻度）が異なる。

How soon is the parent node A built?
　英語／日本語といった言語の違いはあるが、
　「どのぐらい読み違えるか」は似ている(?)。
Q: え、そうなの？

Memory resources
　Long-term memory
　Working memory

Hyakurakan test
　cause? consequence?

Heavy NP Shift
　English: heavy stuff to the end
　Japanese: heavy stuff to the begin

Metrics: how do you measure distance?
　number of words
　number of new discourse entities
　similarity of the constituents
　time elapsed
　etc.

青字で書かれたred


会場Q: コンピュータはワーキングメモリが一杯ある。アルゴリズムはみんな一緒
　でグラマーが違うという話があったと思うが。
A: ワーキングメモリが多いケースは分からないが、少ないケースは患者さんで多
　くいる。文章を作ることは普通にできる。ワーキングメモリが必要なのは読む
　ときで、多い人は読むのに苦労しないが、少ない人は読むのに時間がかかる。
　読む時間は遅くならないが、正答率が遅いというケースや、正答率は高いが読
　み時間をかなり要するというケースもある。
会場Q: 時間がかかるというのはアルゴリズムが違うと考えて良いのか。
A: ある意味で違うと考えても良いと思う。ある範囲で頑張る人も要れば、諦める
　人もいる。

会場Q: 英語と対比すると日本語は省略が多いと言われる。言語的に依存している
　けれども、世界知識的な所で差が出ているのか、グラマーでは違いが無いけれ
　ども、どこでその差が現れていると考えられるのか。
A: 全てを統一的に語ることはできないが、日本語の場合は動詞が最後にくる。
　だから省略する方が理解しやすいというのはあるかもしれない。








(T-d) 3月7日(月) 17:00〜18:30　司会：藤田篤（未来大）

「言語生成研究の動向」徳永健伸 氏（東京工業大学）

対話システムの応答をどう作るか。
株価／気象データといった(非)言語情報から生成。
テキストからテキスト生成するのも良い。

評価問題：正解がそもそも用意できない

言語生成のサブタスク
　テキスト・プランニング：what to say
　　内容の決定、構造化
　マイクロ・プランニング＋表層化：how to say
　　語選択、集約、参照表現の生成
　　ad-hocになりがち。
　　参照表現は比較的問題が定式化しやすい。GRE等。

内容の構造化
　一般的な形式化は困難
　メッセージ集合を談話関係で構造化: e.g, 修辞構造理論RST→テキストプラン
　プランニングに基づく構造化

参照表現の良さ
　Incremental Algorithm
　冗長すぎない方が良さそうだが、心理言語学的観点から見ると
　　・「以外と冗長」 [Deutsch 1982]
　　・文脈集合すべてを見ているわけではない [Pechmann 1989]
　　・漸進的に作られる

評価
　内生的評価／外生的評価
　MTに近い側面もあるが、そもそも元の文自体が無い。
　入力／出力／尺度／文脈／ベースラインは？


会場Q: 参照表現で、日本語に限って言えば、如何に単語を省略するかということ
　があると思うが、そういうことはやられているのか。
A: 日本語で生成やってる人が殆どいないこともあって、殆どやられていない。

会場Q: 内生的評価／外生的評価にあまり相関が無いということが指摘されていたが、
　割とくらい気持ちにもなるがどう捉えるべきか。どうすべきか。
A: 外生的評価をやるべき。ただし、コストが高い。
会場Q: 内生的評価のコストが低いなら、そこで頑張る方法もあるのか。
A: 理想としてはそうだが、解析やろうとしてる時点でだいたい「これが欲しい」
　という目処が立っていることが多い。決めてしまえば他は見ないというやり方
　もあり得る。ただし、それ以外が×かというと、フェアな評価とは言えない。
　ちゃんとした使う環境で評価することが大切。

会場Q: CGだと生成も解析もどちらも大切なタスクとしてやられているが、
　言語ではなぜそこまでやられていないのか。
A: 見栄えの問題が大きい。学生から見ても地味。視覚よりも更に違いが分かり
　難いという側面もある。
会場Q: 意味表現が難しいとかそういうことも影響している？
A: それも当然ある。対話と密接な関係があり、インタラクションしている中で
　それをどう表現するのか等様々なタスクがあり、その先に何があるのか見え
　難く、手を付け難いという敷居の高さがあると思う。






更新ログ

PTQについて、@kaleidotheaterさんより形式意味論であるとのご指摘を頂きました。

Tags:イベントレポート, 学会, 自然言語処理
Posted in イベントレポート, 学会, 日記, 研究 | Comments Closed

(感想) サマーコンファレンス2010

土曜日, 7月 24th, 2010

サマーコンファレンス2010
期日: 2010年7月24,25日
場所: パシフィコ横浜

サマコンの感想その1。
想像以上に大規模なイベントでビビった。日本青年会議所なるものがどんなものなのかすら知らず、共済見る限りではその一組織っぽいところが一カ所名乗り上げてるぐらいだからそこの地域ローカルな1イベントだと思ってました。

サマコンの感想その2。
（学術的な会議でもありがちだけど）パラレルで講演やらパネルディスカッションやら走ってるので一通り見ることができないのが残念。後でどこかでアーカイブ公開とかされるんだろうか。

サマコンの感想その3。
大きなテーマに対する議論を美味く進めるためのサブテーマをうまく設定されてて、話を聞いてても理解しやすかった。一方、JC側が用意したプレゼンを後半途中で流すというのがお約束っぽいのだけど、冗長に感じた。最後に提言なりサマリなりしてるからそれで十分じゃないかな。折角多方面に渡る人を呼んでるのだから、そっちの話をもっと聞きたかった。

サマコンの感想その4。
名古屋市長、三鷹市長、藤沢市長らのパネルディスカッションが特にそうだったのだけど、立場的には同じだけど地域毎に違う人達の具体的な話を様々な視点から聞けるのはもの凄く面白い。お陰で市長／市議会らの活動に目を向けようと思えるようになりました。

サマコンの感想その5。
一般公開している割には微妙にクローズド感というか鎖国的なニュアンスを感じる。具体的な事物を指摘できないのだけど、なんとなく。サマコンそのものも、全国各地（世界各地）JCらが集まるお祭り、という感じが強い気もしたし。良くも悪くも関係者ばかりだからかな。

そうそう、JC関係者しか参加できないセッションがあるのだった。有料という訳ではなく、関係者か否か。これがクローズド感を一要因なのは間違いない。

ま、次も機会があれば参加したいとは思います。面白かったし。

Tags:イベントレポート, 日記
Posted in イベントレポート, 日記 | No Comments »

(Report) 第22回セマンティックウェブとオントロジー研究会 #sigswo

金曜日, 7月 23rd, 2010

第22回セマンティックウェブとオントロジー研究会

本家サイト

ハッシュタグ: #sigswo

第22回セマンティックウェブとオントロジー研究会に参加してきました。
予稿集がオンライン公開されてますので詳細はそちらを読んでもらうとして、ここでは個人的に気になった点のみを備忘録的にレポートします。

SIG-SWO-A1001-01: キーノート講演「セマンティックWebとオントロジー：現状と将来展望」

関連リンク: slideshare

研究領域は大別して「オントロジー、Semantic Web、semantic web」に分かれている。
　オントロジー: 論理や表現としてのオントロジー研究。
　(大文字の)Semantic Web: Webにセマンティクスを持たせる研究。
　(小文字の)semantic web: ブログやソーシャルタギング・集合知等といった必ずしもRDF(S)/OWLに依存しないセマンティクスに関する研究。

個人的な主な興味は3番目の方。
オントロジーそのものをどう作るかとか、データを橋渡しするための記述とかをあまり考えたく無いというか。如何に効率良く／手軽にそれらを実現するかという話は面白いのですが、どうせなら機械に一任したい部分。逆に言うと、一任するための自動化という視点では前者2つにも興味がありますが、それなら3番目をやった方が早いんじゃないかな、と。

SIG-SWO-A1001-02: 東京県民

関連リンク: 東京県民プロジェクト

東京にやってきた他県民のSNSを介した地元＆現地との繋がりをマイニングして、県民性を見てみるという話。
関西人のコミュニティでは「関西芸人」に反応が高いとか、愛地県民は「食文化最強」とかいろいろカオスってるとか、どこぞの地方の人は出身元を表に出さないとか、それっぽい【県民性】が抽出できてるっぽいとのこと。
質疑応答で出ていた
　・海外に居ると「日本」という視点でモノを見るようになる。
　・Facebookで国民性が抽出できないか。
といった観点も面白そう。

SIG-SWO-A1001-03: Summarizing microblog stream

関連リンク: 東京工業大学奥村研究室

Twitterの要約。
前提：あるトピックに関するTweets（マイクロブログストリーム）が入手可能。
重要と思われるイベントを選び出し、どんなイベントが、どの時刻に起こっているのかをまとめた要約を作りたい。
決められた個数のTweetを列挙して並べることで要約を作成。

従来要約する際には「文章毎に共通する単語の割合」で包含具合を推定。これだと時間遅れ、異なるイベントを同一視してしまうといった問題があるので、推論方法を拡張。ツイートの時間差をペナルティとして与えるだけだと、長いツイートが選出されやすくなるので文長にもペナルティを与えた。

（包含されてるツイートを代表ツイートへ割り当てる）割り当てを自由にするのではなく、線形分割条件に。これでクロスしたり離れた所への割り当てはできなくなるが、高速近似アルゴリズムが適用可能。速度重視なのは、恐らくリアルタイムに処理したいから。

それは良いとして、線形分割問題に落とし込んでしまうと、物語のシチュエーション分割（IDMとか）と同等の問題になってたりしないのかな。（後で考える）
時間軸でパラレルに複数のイベントが走っているという点を捨ててしまっているのは少し勿体無い気がしました。

質疑応答では「そもそもどういう要約を作りたいのか／作るべきなのか」という点でいろいろ盛り上がってました。実際いろんな要約がありえますしね。
「最初のツイートをトリガーとしたサマリ」という視点は面白い！

SIG-SWO-A1001-04: 文楽人形動作の意味解釈システムの構築

人形動作を観測点毎の変動データに変換し、それらのデータセットと「意味解釈」をどうにかして関連づけたいという話。
データセットが大きくなり過ぎなので効率良い解析方法を検討中とのこと。

絶対値に意味が無いから一つ前の時刻との差分で「動作」という単位にしてるっぽいけど、実数値じゃなくてカテゴリカルな値（上がったか下がったか変わらないかとか）にするだけでも問題空間が大きく減りそう。というか減り過ぎて困るという可能性が出てくるが。。

SIG-SWO-A1001-05: 行為者の気づきに基づいた印象に関する知識表現

感情とか感覚といったものをオントロジー記述したいという話っぽいです。
オントロジー設計そのものが大変だけど、感覚って定式化して描けるものなのだろうか。

SIG-SWO-A1001-06: アポトーシスに関するシグナル伝達オントロジーに基づく定性的シミュレーション

オントロジーとして記述した知識に基づいた定性的な表現方法と、それに基づいたシミュレーションをしたという話。
生命現象は「生体のバラツキや、一般の物理現象と比較して複雑な要因に支配されてるため、定量的な記述に限界」があるため、定性的なシミュレーションが可能な記述について取り組んでいるらしい。それは死ねそうな話だ。。

SIG-SWO-A1001-07: サジェスト機能によるゆるやかなオントロジー構築を可能にするシステムの提案

関連リンク: 濱崎雅弘

大勢のユーザでオントロジー作りたい。
その場合、クラスとか予めスキーマを考えながら作り上げるのは非現実的なので、自由にインスタンスを作らせる環境を用意し、どんな属性を追加すべきかといった構築支援を含めたシステムを用意してみたという話。
ユーザは「ノード、属性、属性値」のトリプルを入力するだけで良く、大人数で編集し合うことで次第に合意形成するところまで踏み込みたいっぽい。

オントロジーとして本当に使えるものになるかは良く分からないけど、議論アシストにはかなり向いてそう。大抵は分かりやすく「見える化」するだけで議論進むようなことを変に口論しちゃうことでなかなか前に進まないという状況が多そうだし。
どういう風にオントロジーを作るべきかという支援だけでなく、間接的に概念理解とかにも使えるのではってのはその通りだと思います。一種のコンサル的なこともできそう。

SIG-SWO-A1001-08: 「法造」におけるオントロジーの品質保証に関する一考察

オントロジー研究者が作る環境はあるが、そうじゃない人が「そのオントロジーが適切か否か」を判断するのは困難。
だからそれを判断しやすくするためのビューワ（概念マップ）を作って、実際に触ってみてもらったとかいう話らしい。
実際、概念数がウン十あるだけでも、何がどういう関係で何処に繋がっているかを把握するのって、もの凄いコストがかかる作業だよねぇ。

Tags:イベントレポート, 学会, 日記
Posted in イベントレポート, 日記 | Comments Closed

(美来工科インターンシップ) Day4, 最終報告会

金曜日, 7月 9th, 2010

最終報告会を終えました。

予定していた時間をややオーバーしましたが、両グループともパネル3枚を完成させ、印刷する所まで辿り着けました。目的と目標を提示されただけの所から始まり、
　・それを達成するために適切なテーマをどのように決めるか、
　・それを達成するために何をどのように調査するか、
　・実際に調査可能かをサポート学生らと交渉を行い、
　・調査収集した結果何が分かったのか、それが自分に取ってどうだったか、
　・調査収集した情報をどのように整理し、
　・第三者への報告書としてパネル形式に収めるためにどのようなコンテンツを含めるべかを検討し、
　・それらをどのように配置すべきか、
　・グループワークとして機能的に行動するにはどうすれば良いか、
等の、初めて経験することだらけの課題になっている中、4日間でパネル完成まで持っていけたのはとても素晴らしいです！お疲れさまでした！

報告会では両グループとも完成したパネルを用いて報告する形式で発表してもらい、互いに質疑応答し、サポート学生や参加頂いた先生にコメントを頂けました。発表の仕方や、複数の人に向けて話す際の仕草、パネルそのものの作りに関する指摘、そして単に調査をして終わるのではなくそれが自分にとってどうだったのかといった所まで考えて行動出来るようになろう、等多岐に渡るコメントを頂くことが出来ました。

実習期間中だけでは収集した情報を噛み砕いて解釈整理するところまで検討する時間がなかったかと思いますが、本番のオープンキャンパスまで1週間ありますので、少しでも自分自身の言葉で話せるようになることを期待します！

謝辞

今回のインターンシップ実習を実施するにあたり、去年まで担当されていた岡崎先生の助言をはじめとし、教職を志望しているサポート学生の皆さん、アカウント等の対応をして頂いたサーバ班の皆さん、そしてインタビュー等対応頂いた先生方＆学生の皆さんのお陰で、実習そのものは無事に一段落する所まで辿り着けました。ありがとうございまいした！

(各グループのブログ報告)
グループA:
　1. 四日目の日程(最終日)
　2. 四日目作業報告
グループB:
　1. インターンシップ最終日の日程
　2. 進行状況
　3. インターンシップ終了

サマリ: 美来工科インターンシップの実施について

Tags:イベントレポート
Posted in イベントレポート, 日記 | No Comments »

(美来工科インターンシップ) Day4, 進捗具合

金曜日, 7月 9th, 2010

規定時間通りでいけば、残り作業時間は数時間にせまりました。

現時点での進捗具合を確認した所、
グループAは残り1,2時間で終われるかは微妙なライン。
グループBは微調整に入っているとのこと！

Tags:イベントレポート
Posted in イベントレポート, 日記 | No Comments »

(美来工科インターンシップ) Day4, 今日の予定確認

金曜日, 7月 9th, 2010

インターンシップ4日目（最終日）の始まりです。

今日は夕方に最終報告会＆オープンキャンパスに向けての残作業確認を予定しています。この残作業とは、琉大のオープンキャンパス開催時にパネル展示をした上で、高校生の視点から見た「大学／情報工学科／卒業後の進路等について調査して分かったこと」をパネルで説明してもらう際に残っている作業のことです。高校生自身が高校生へ説明するという形式になりますが、この活動を通して自分の将来について考える種を持ち帰ってもらうことが目的です。自分の将来が進学か就職かは関係ありません。実際ちょくちょく進学とは関係ない話もしています。一番の肝は、人生の目標を持って、そこに向かって行動するための種になってもらえればそれで十分です。

さきほど各グループに今日の予定を確認した所、先日の報告通り、どちらもパネル作成に終日時間を割り当てているようです。

グループA: 四日目の日程(最終日)
グループB: インターンシップ最終日の日程

朝一の時点では、グループAがデザイン作業から始まる所に対して、グループBは大まかな検討を昨日で終えていて、仮レイアウトし始めている分一歩リードしているようですね。ただし、グループBはAと比べて人数が最初から1名少ない上に、更に1名別件で今日から抜けていますので、これからの作業進捗にどれぐらい影響があるのかは不透明です。

なるべく今日での完成を目指して、頑張りましょう！

前回: (美来工科インターンシップ) Day3, 今日の予定確認

Tags:イベントレポート
Posted in イベントレポート, 日記 | No Comments »

(美来工科インターンシップ) Day3, 今日の活動報告

木曜日, 7月 8th, 2010

本日のリーダーは、グループAが糸数くん、グループBが津波古くんでした。

これまで同様、今日一日のサマリとして、高校側で指定されてる日報の作成と、ブログ記事の作成をしてもらいました。

グループA:
　1. ３日目の日程
　2. 昼ご飯（学食）
　3. 當間先生にインタビュー
　4. 作業報告
グループB:
　1. 今日の計画
　2. ２年次へのインタビュー
　3. 作業報告

今日はフルタイムで生徒ら自身が自由に動ける日で、どちらも調査等による情報収集を終えることが出来たようです。

パネル検討に関しては、グループAは残念ながら具体的な設計案を検討する所までは進めていませんでしたが、「何故このような調査をしようと思ったのか、それをどのように調査したのか、その結果何が分かったのか、そこから学んで自身に反映したいと思ったことは何か」といった事柄について即興で答えさせてみた所、それなりに統一されたストーリーで理解しやすく説明してもらえたので、全体像としては十分把握出来ていると感じました。これはグループBも同様です。

グループBは、午前中にパネル検討をしていたこともあって、写真のようなデザイン検討まで進めており、明日には直ぐパネル作成作業に移れそうです。

残す所、あと一日！

P.S.
ブログ作成を含めた作業にも慣れてきたようで、殆ど規定時間を超えずに終了することが出来ていました。

Tags:イベントレポート
Posted in イベントレポート, 日記 | No Comments »

NAL’s blog @ 琉球大学情報工学科

Posts Tagged ‘イベントレポート’

NLP2011, 本会議3日目終了（セッションE3:不自然言語処理　枠に収まらない言語表現の処理(1)、B4:対話・文脈処理、A5:教育応用）

NLP2011, 本会議2日目終了（セッションB2: Twitterと言語処理）

B2:テーマセッション4: Twitterと言語処理

NLP2011, 本会議1日目終了（セッションB1: Web応用）

B1: Web応用

NLP2011, チュートリアル終了

(感想) サマーコンファレンス2010

(Report) 第22回セマンティックウェブとオントロジー研究会 #sigswo

(美来工科インターンシップ) Day4, 最終報告会

(美来工科インターンシップ) Day4, 進捗具合

(美来工科インターンシップ) Day4, 今日の予定確認

(美来工科インターンシップ) Day3, 今日の活動報告

固定ページ

Blogroll

カテゴリ一覧

最近の投稿

最近のコメント

メタ情報

Posts Tagged ‘イベントレポート’

B2:テーマセッション4: Twitterと言語処理

B1: Web応用

固定ページ

Blogroll

カテゴリ一覧

タグクラウド

最近の投稿

最近のコメント

メタ情報