NLP2011, 本会議3日目終了(セッションE3:不自然言語処理 枠に収まらない言語表現の処理(1)、B4:対話・文脈処理、A5:教育応用)
NLP2011、本会議3日目(一般講演セッション3つ)。
本会議最終日は、
E3:不自然言語処理 枠に収まらない言語表現の処理(1)
B4:対話・文脈処理
A5:教育応用
に参加してきました。
夜は交流行事があるようなのですが、力つきて見送ってしまいました。明日もまだあるし。というか皆さんほんと体力ありますね(汗)
三日目にしてようやく「素性」の大切さというか、高精度を実現しようとすると苦労するポイントが似通ってくるんだなというのが分かってきました。それぐらい、多くの発表で出てくる話題。人間ってどうやって素性を捉えているんでしょうね。
目次
・E3:不自然言語処理 枠に収まらない言語表現の処理(1)
・文頭固定法による効率的な回文生成
・日本語常用漢字熟語の選好変化と自然言語処理
・「不自然言語処理コンテスト」第1回開催報告
・ウェブからの疾病情報の大規模かつ即時的な抽出手法
・データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法
・感情推定における若者言葉の影響
・教師付き外れ値検出による新語義の発見
・定型から逸脱した言語表現の分析
・B4:対話・文脈処理
・POMDPを用いた聞き役対話システムの対話制御
・対話型e-Learningシステムの開発
・共通状態と連結学習を用いたHMMによるコールセンタ対話の要約
・コールメモを利用したコールセンタ向け音声対話要約方式の提案
・Toward Plan Recognition in Discourse Using Large-Scale Lexical Resources
・視線情報を利用した協調作業対話における参照解析
・直接照応解析における分野情報および文脈情報の有効性検証
・A5:教育応用
・学習指導要領に立脚した児童作文自動点検システムの実現
・非日本語母国話者の作成するシステム開発文書を対象とした助詞の誤用判定
・翻訳教育向け「みんなの翻訳」
・Stativity判定に基づいた時制誤り検出
・最大クリーク探索に基づく特許検索履歴の統合
・テレビスポーツ番組におけるリアルタイム字幕の特徴
E3:不自然言語処理 枠に収まらない言語表現の処理(1)
3月10日(木) 9:00-11:50 A1-301教室 座長: 村上浩司 (楽天)E3-1 文頭固定法による効率的な回文生成 (pp.826-829)
○鈴木啓輔, 佐藤理史, 駒谷和範 (名大)回文条件3つ 語順+文法+意味 機械での判断難易度:語順<文法(文節内文法+係り受けチェック)<意味 語順+文節内文法までのチェックを行う
回文条件1のために、網羅的生成では時間がかかりすぎる 折り返し固定法→文頭固定法(シード文節を文頭文節にする) 初期状態数が減る+初期状態での不足文字列が現れ難い 文節数3: 21時間→42分
文節集合のクリーニング JUMAN形態素辞書から読み2文字以下の語構成要素を人手で削除 コーパス対応 →生成数・生成時間が1/3に、高精度で生成できた JUMANで「罪」を常に「ざい」と読んでしまう等で生成できない回文もあった
Q: 直接的に何に利用できるか想像つかないけど、「お遊び」を解析すること で得られる知見が間接的に応用できることはありえそう。どういうものが あるだろう。。
会場Q: (1)折り返し固定法と文頭固定法とで良い回文生成という点でどういう 違いがあるか。(2)多くの時間がかかるが、アルゴリズムやデータの持ち方 についてどのぐらい高速になったのか。 A: (1)全文生成なので同じ。(2)いろいろ工夫していたがこれまでは劇的な 改善には結びつかなかった。今回の手法で初めて大幅に改善できた。
会場Q: 今後の課題について、生成候補を文法や意味的に絞り込むようだが、 単語の言語モデル等を考慮して自然な文にすると想像するが、最初の段階 でランキングするといったことは考えられるか。 A: 係り受けチェックや意味チェックは動的にやっていきたいと考えている。
会場Q: 回文は楽しいと思うが、3文節ぐらいだとつまらないように思う。 人が頑張ると持ってできそう。長くなる程人間にはできなくなると思うので、 生成した回文を公開して欲しい。 A: まだ公開していないが、ちゃんとチェックしたら公開できるようにしたいと思う。
E3-2 日本語常用漢字熟語の選好変化と自然言語処理 (pp.830-833)
○砂岡和子 (早大), 羅鳳珠 (台湾元智大)中国台湾香港との共同研究。 不自然な言語をどう扱うかというより、教育という観点から、 発話される言語そのものをどう扱うかということについて取り組んでいる。
日本人中国語学習者がどの程度認知しているか 四字熟語、故事成語の計328語が対象 小学生対象時には、一部をひらがなに置き換えて実施 半数以上が認知できない慣用句もあり 親子関係、生活環境の変化 若年層の慣用句の誤用は年々増加傾向 情報収集はネット経由が過半数になりつつある 言葉の意味やニュアンスが変わる 入力ソフトで出てきた候補を選んでしまう
言語資源の階層 子供の言語→地域言語→広域言語→グローバル言語 音声言語→文字言語 インフォーマル言語→フォーマル言語
Q: ネット経由での情報収集が増えると、言葉の意味やニュアンスが 変わりやすくなる? 身内用語(用例)が増えるということかしら。
会場Q: 故事成語だと時代毎に変化がありそう。それらを複数登録すべきなのか。 A: どちらもありえる。両方併記の上、意味を解説するという方針もあると思う。
登壇者Q: 言語政策そのものには関心があるのか? A: Google 日本語入力作っているが、正しい日本語入力をしたいという人に 対応できるように作りたいと考えている。
E3-3 「不自然言語処理コンテスト」第1回開催報告 (pp.834-837)
○萩原正人 (楽天), 大原一輝 (フリー), 水野貴明 (バイドゥ), 橋本泰一 (東工大), 荒牧英治 (東大), 竹迫良範 (サイボウズ)背景 ノイズの存在 実データは「(綺麗な)文法的な言語表現」の前提が崩れる
不自然な言語現象 変則的な固有表現・未知語:モーニング娘。せきじゃに 口語表現・オノマトペ・新語:本田△ 異表記・表記揺れ・略語等:ふいんき(なぜか変換できない) kwsk ギャル文字 顔文字・AA・絵文字 スパム検出、不正検出 スペル訂正 etc.
不自然言語処理コンテスト お題「不自然言語を使ったコミュニケーションを豊かにするサービスや作品、 プログラムなどを作ること」 発表形式・形態は自由 モバイルWebの形態素nグラム統計を公開 絵文字を形態素として含む キャリア別 MeCab+IPADicにより解析
受賞作品紹介 グランプリ「Soramegraph」 Tweetのなんとかをなんとかに空目した →空目した関係を可視化 準グランプリ「誤字ェネレータ」 ワザと類似した誤字に変換 画像の類似度を測って、割と真面目。 審査員特別賞「感情のこもった返答テンプレ生成君」 例:テンション高いテンプレ(近いもの)を利用 「飲み会行きましょう」→「是非行きましょう!」
LT賞「ケンブッリジ大学」 検索避けのため不自然な言語を使うという現象 ただし、書きづらいし、読みづらい→コミュニケーションが非活性化 →ケンリブッジ大学 文字列を画像化 文字順番は割とばらばらでも読める 「こんにちは!不自然言語処理セッションへようこそ!」 →「こんちには!不自然言語処理セシッョンへようこそ!」 単にゴミとして扱うのではなく、親密度として扱うと面白いのでは。
応募作品総評 作品傾向:絵文字挿入や不自然なことばに書き換えるもの Perl, Ruby, Python などのLLでの実装
Q: 「単にゴミとして扱うのではなく、親密度として扱うと面白いのでは」 という視点が面白い!目的によってどう扱うかはちゃんと検討しないとね。
会場Q: 日本語以外にも、他の言語でもやり始められていることなのか。 A: 英語ではノイジーテキストを処理しようというワークショップが開催 されている。他言語でもあると思うが、英語以外では把握していない。 会場Q: ワザと不自然言語に変換するというのは他言語でもあるのか。 A: 絵文字やギャル文字の文化は、把握している限りでは日本語で文化が 進化。表現しやすいというのもあると思うが、既に文化として根付い ているのは日本語ぐらい。
会場Q: 境界はあるのか。 A: グレーな所が多いと思う。AKB48がイレギュラーとか簡単に断じる ことができる、そもそもどう定めるべきかから考える必要があると思う。
E3-4 ウェブからの疾病情報の大規模かつ即時的な抽出手法 (pp.838-841)
○荒牧英治 (東大), 森田瑞樹 (医薬基盤研究所), 篠原(山田)恵美子, 岡瑞起 (東大)例:カゼミル 調査集計には時間がかかり、集計後には既に蔓延していることがありえる。 Twitterで検索クエリを人手で準備し収集 「風邪」→風邪、熱、インフルエンザ ただし実際に流行している訳ではなく噂としての流行も拾ってしまう 「ひきそう」→願望/予防はフィルタリング 動物の症状や誤字→フィルタリング
学習器による事実/非事実判定≒スパム判定 内容(命題)の妥当性+モダリティの妥当性 条件毎にコーパスを作成し、2種類の判定器を構築 命題とモダリティ両者が正しいなら事実クラス 周辺語のBOW(window size=6が最も良かった) ベースラインより若干改善するが、タスク毎に差もあり要調査 SVM以外も試してみたが比較的どれも良く、一番良かったのはNaiveBayse どの程度、現実を予測できるのか 国立感染症情報センターの報告との相関係数 2008年、Googleより提案手法が若干良い結果。 2009年夏、Twitterが噂に反応しやすいのか、悪い結果に。 ピーク前後で比較すると、前は過剰反応する傾向あり。 その部分ではGoogleより傾向を取りやすい。
Q: 噂センサーとして、流行前兆についてヒットしやすい点を、単純に「命題+ モダリティ」という点で学習(フィルタリング)してもあまりうまくいかない という結果だと思うけど、これ、人間でもうまく判断できない問題設定 (かなりタフなタスク)だったり? 何を根拠に信じるかというのは その人の環境要因が大きく作用する面もあるだろうし、内面的な要因 が強い場合もあるだろうし。うーん。。
会場Q: ツイッターをセンサーとしてみるのは面白い。niftyでも花粉症で 似たような話をされていた。センサーとして考えると感度や地方差がある。 関西では花粉との相関が低いらしい。理由は良く分からない。 A: 花粉症も一緒にやっており、spin out してやっている。アイデアは今の所 まだないので、何かあれば。
会場Q: モダリティについて、人に直接確認はされたのか。 A: 現状の技術でリーズナブルだと思う。
会場Q: 不自然言語処理のセッションとして、言語処理をキチンとやった 場合と統計ベースとの比較はしているのか。係り受け解析とかやるより 統計解析の方が良かったのか。 A: ツイッターの場合には構文解析精度が落ちると予想し、今回は試していない。
会場Q: 文字列や文末を使うというのは。 A: 文末だけ別に加える等もできそうで、興味深い。
会場Q: ピーク前後といったことを考慮した数理モデルを用いた方が、 より精度が高くなるのでは。 A: 考えてみたいと思います。
E3-5 データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法 (pp.842-845)
○鈴木徹也 (芝浦工大)テキストアート(アスキーアート)の抽出 行指向(複数行で構成された行単位のもの)のテキストアートを扱う テキストアート識別法 テキストアート抽出法(範囲を判定) 空白の取り扱い 全角半角が混在。視覚的には空白だが何も無い箇所もある。 →空白の正規化手法を確認したい
言語に依存しないテキストアート抽出法 辞書や文字出現頻度を用いない テキストアートらしさ 利用する属性 ランレングス符号化による圧縮率 行数 文字列長
抽出概要 候補範囲の決定→窓内のテキストについて識別することで範囲決定 機械学習c4.5で識別 正規化3種類+正規化無しの4パターンを比較 半角スペース統一/AA右側に不足分追加/AA左側を削除
Q: テキストアートって何らかの生成システム使ってることが多いと思う (多分)のだけど、いくつかの生成システム自体の入出力特性を見る ことで「テキストアートらしさ」を傾向として捉えることできたり しないのかしら。
会場Q: 窓をスライドさせてテキストアートらしさを判定しているようだが、 アートによっては左にもキャラクタや何かしらおいてることがあるが、 一部分に窓を設定することはできるか。 A: 今の所考えていない。圧縮率を見ようとするとちょっと困難。
会場Q: どういうのが取れない、というのはあるか。ざっと見て取れるかなと 思ったが、逆に取れないものがあるのか。 A: 実験のデータでは割と取れているが、2chとかに適用すると取れないのが多い。 数式とか。
会場Q: 目標は何か。取った後で何をする? A: テキストアートの範囲だけでなく、予めテキストアートDBを作っておいた ものと比較してどれに近いか、といったことを考えている。
E3-6 感情推定における若者言葉の影響 (pp.846-849)
○松本和幸, 任福継 (徳島大)くだけた口語表現、多様な新しい表現(若者言葉など) テキストからの感情推定 若者言葉を既知語に変換する事例があるが、 元語が必須で、かつ変換することで微妙な意味の変化が失われる可能性。 →そのままの形で感情推定する
問題点 多くは未知語で正しく形態素解析できない事が多い 若者言葉感情コーパス(WKEC)を構築 コーパス分析するとそれなりに感情推定できる傾向がありそう
若者言葉を素性にした場合とそうでない場合とを比較 ベースラインを平均14.9%上回る精度 SVM vs. NB -> NBが高い
Q: 「若者言葉を素性にしない場合」というのは形態素解析失敗結果を そのまま素性にした場合? N-gram素性とどっちが良いのかな。
会場Q: 若者言葉感情コーパスに関して。(1)作業者2名は若者だったんでしょうか。 (2)そのコーパスを公開する予定があるか。 A: (1)私自身+学生。(2)公開したいと思うが、個人名が多く入ってたりするため、 整理してからの予定。
会場Q: 若者言葉が入っていることを検出する際、mecab辞書として登録した? 別処理で対応? A: コーパスに付与している若者言葉をそのまま素性とした。誤り分割結果に ついて観察した結果、形態素解析結果は使っていない。
会場Q: 感情を13種類としたのは何故? A: 心理学での分類を考慮しつつ、増やしている。
会場Q: クラスが増える程当らなくなる、一致しなくなると思う。例えば怒りと 嫌悪は近いとかあるのでは。 A: その通りで、人によっては怒りと捉えたりという差異が見られた。 タグ付与者は別々に作業した。
会場Q: 若者言葉に感情表現が多く含まれているというデータは何かしら あるのか。そうでないと、今回は単にそこにタグを付与したから うまくいったという結果でしかないと思う。 A: そういうデータは今の所ない。 会場Q: そこの検証をしないと、若者言葉に着目した方が良いという 根拠としては不十分では。 A: その通りで、今後分析していきたい。
E3-7 教師付き外れ値検出による新語義の発見 (pp.850-853)
○新納浩幸, 佐々木稔 (茨城大)対象単語の用例集から、その単語が新語義となっている用例を検出したい。 辞書の拡張、管理。 仮説:新語義は用例集内の「外れ値」になっているだろう →外れ値検出 LOF(Local Outlier Factor)
大きく外れている値だけでなく、近い外れ値も取りたい。 単純は外れ値ではない。 新語義の場合は定義可能なので「教室付き」外れ値検出 識別の信頼度は無益でクラスタまでの距離を考慮する必要あり 教師付きLOF+LOF値の大きい上位を対象 教師データがあってもクラスタ分布が未知。マハラノビス距離は意味が無い。 距離だけでなく分散も必要 →重心を利用した外れ値の度合い
実験 SemEval-2 日本語WSDの48単語 与えられた語義に該当しないものもある 2400用例中16用例が新語義 F値: LOF=LOF+OneClassSVM<OneClassSVM<教師付きLOF<提案手法 基本的に低い 誤検出の原因 特異用例(誤り、専門用語):「そんな時間必要ないけど」 書き誤りに近いもの:「私が子供産んだとき」 距離の差がほぼ同等 パラメータの問題
Q: クラスタリング(ベクトルやクラスタ間類似度)じゃなくて、 別のアプローチが考えられないのかしら。教師データを設定 しやすいというのは大きなメリットだと思うし。
会場Q: 使ってる素性は? A: WSDで使う一般的な素性。 会場Q: そうすると、未検出が多い場合にはその素性が役に立たないのか、 距離計算の方が問題? A: 素性の方が問題。多分、無理なんじゃないかと。素性が悪いと距離も悪くなる。 今回の用例では偏りのあるタスク過ぎるというのもあるかしれない。
E3-8 定型から逸脱した言語表現の分析 (pp.854-857)
○土屋智行 (京大/学振)定型とは 複数の語が様々な組み合わせで慣習化し、定着したもの。 あらゆる語のあらゆる組み合わせが存在 字義的な意味と異なる場合、解釈すら難しい場合(手を焼く) 定型は頻繁に破られる 例:「鬼に金棒 弁慶に薙刀 ローソンにATM」 →前段無くても意味は分かる。 人は、逸脱表現の「元表現が何なのか」を特定し、 「意味的な差異」を理解できる →定型の逸脱表調査とその分析
どれだけ逸脱しているか(逸脱バリエーション) 元形式がどれだけ保持されているか(定型的な表現の特徴) 「NP1にNP2なし」の表現4例 Sketch EngineのJpWaCコーパス(ウェブコーパス)から抽出 元表現より逸脱表現が多いものも、逆傾向もあり。 Pattern Lattice Builder (PLB) で分析 組み合わせ抽出ツール パターン生成し、説明力のある接続ノード数を調査
様々な逸脱用法があるが、 話者にとって逸脱しやすいパターンとそうでないパターンに偏りがある。 元の表現を喚起しやすいパターン等への分析へ。
Q: 「定型は頻繁に破られる」の破られ方をパターン的に調査しているが、 PLBのような定型化しやすいパターンでは補えない(見過ごしている)が、 人間だとパターンとして認識しやすいものって無いのだろうか。 例えば「いとをかし」とかは単体じゃなくて別の文と一緒に使うことで 初めて違う意味を持たせる、みたいなものだろうし。ただの多義語?
会場Q: 考察対象にしたのが元表現の形態素のみを含むパターンになっているが、 そうではないパターンでかつある程度の頻度が高いものがあったとしたら、 どういうものがあったのか。 A: 例えば「触らぬ神に祟りなし」だと「神」が変えられている例が多数が ある一方で、異表記パターン(祟り、たたり)もあった。 会場Q: 検出を考えると、そういうのがあるなら、元表現と同じではない 逸脱パターンを見つける方向にいけるのではないか。 A: 可能性としてあることは認識しており、今後考えていきたいと思う。
B4:対話・文脈処理
3月10日(木) 13:00-15:30 A2-101教室 座長: 駒谷和範 (名大)B4-1 POMDPを用いた聞き役対話システムの対話制御 (pp.912-915)
○目黒豊美, 東中竜一郎, 南泰浩, 堂坂浩二 (NTT)聞き役対話 二者間の発話で一方が聞き役、多方が話役という役割を持った対話 聞き役は相づちだけではない 質問したり自己開示(自分の意見)したりして、発話を促す、引き出すことが重要 「聞いてもらいたい」という欲求を満足させる
発話理解部+対話制御部(対話履歴)+発話生成部 今回は対話制御について。 例)ノンバーバルな聞き役(ジェスチャー) →言語表現でやる
POMDP: システム・ユーザのインタラクションをモデル化(する機械学習) 報酬(あるアクションの結果の望ましさ)の平均値を最大にするアクションを選択 ただしタスクが明確でない対話への応用例はない →ユーザ満足度+自然性の二種類の報酬を導入 DBNでシステムとユーザの振る舞いをモデル化 アクションに報酬を与える構造(POMDB)に変換 HMMやEvenPOMDPより高評価
Q: 制御部の話だから出力をどう生成するかについての話がなさそうなんだけど、 強化学習するには出力が必須なはず。文選択させるとかで疑似出力に してたりするのかな。 →カテゴリ
会場Q: 満足度と自然性の両方を定義したとのことだが、バランスも重要では。 そこも強化学習の枠組みでやっているのか、単純に5部5部なのか。 A: 足しているのだが、重みは数パターン試した上で調整した。そもそも異なる スケールなので、単純に重みとして言えるかは分からないが、 満足度:確率で確率の方が4,5倍して、同じぐらいになるように調整してある。
会場Q: 何を評価しているのか良く分からなかった。シーケンスを評価している? A: 本当に評価したかったのは対話行為の列だが、人手で対話文を生成した上で 評価した。 会場Q: そこはくせ者で、何を「自己開示」にするかがコントロールされないと、 何を評価しているかが分からないのでは。 A: 文生成にはルールを決めた上で、キーワードを埋め込む形で生成。 いくつかルールがあるが、そこからの選択は人手になっている。 会場Q: そこをコントロールしないと、どちらが効いているのかが良く分からない。 A: 16人に生成してもらった上で評価しており、 ある程度ならされた評価にはなっていると思う。
会場Q: 対話行為を自然文になおすというのはとても難しい。コーパスに対して スコアリングしていて、一番右側の文を自動生成できない理由は? A: 今回の学習は対話行為列をアノテートしたものを使っており、 出力は対話行為までが限界。 会場Q: そのままだと汎化しすぎているように見える。
B4-2 対話型e-Learningシステムの開発 (pp.916-919)
○峯脇さやか (弓削商船高専), 嶋田和孝, 遠藤勉 (九工大)優れたIT人材 ITに関する知識や技術を持ち、コミュニケーション能力がある e-learningは基本的に一人で取り組むもの 孤独でモチベーション維持困難 うまく質問できない →システムに質問しながらe-learningコンテンツに取り組む 学力向上+質問する力(決まり文句を身につけた上で)
発話理解は簡単なパターンマッチング(決まり文句を身につけさせるため意図的) 想定される質問の分析 システムが受け付けるもの→ヒントを与える それ以外→受け付けない 対話の流れをモデル化
Q: 質問する時の決まり文句より、質問対象をどのように捉えて、どこを 聞こうとしているのかを明確にするところの方が大切な気もするが。 「動かないんですけど」「何が?何をどうやった?」とかそういう 意味では別セッションであった質問支援システムの方がやりたいことに 近いのかな。
会場Q: このシステムだと、仰れた通り質問する力は身に付くと思うが、 自分で調べる力を付けることにも考慮して欲しいと感じた。質問ですが、 ルールの生成にはどのぐらい時間がかかったか。全体のスクリプト。 A: 今回のは課題26個、小問題が各々2〜4つ。学生数人に取り組んでもらって 約2ヶ月。 会場Q: 直接人間が教えるよりもコストが低くなる方が望ましいと思うので、 省力化できるように考えた方が良いだろう。 A: スクリプトの自動生成を検討中。
会場Q: 限られた文しか認識できないとのことだが、その文は生徒には 示しているのか。 A: こういう質問したらいけるよといったアドバイスはしたが、 マニュアル提示まではしていない。 会場Q: マッチしない時に「受け付けていない」だけではユーザが頑張れないのでは。 A: 学生のアンケートで読み取りに式結果が余り良くなかったという意見はあった。 そこは良さそうなソフトを使うぐらいの話。認識誤りがあってもまだ ポジティブに受け止められている。
B4-3 共通状態と連結学習を用いたHMMによるコールセンタ対話の要約 (pp.920-923)
○東中竜一郎, 南泰浩, 西川仁, 堂坂浩二, 目黒豊美, 小橋川哲, 政瀧浩和, 吉岡理, 高橋敏, 菊井玄一郎 (NTT)コールセンタ対話 比較的短くくて120発話(一般に5分程度だが、1時間とかのもかなりある) オペレータの振り返りが困難 監督者による業務内容把握が困難のため、改善に繋げられない 抜粋してどういう対話があったかが短時間で把握できる要約を生成したい ルール生成型ではコストが高く、ポータビリティが低い
アプローチ 自動学習 コールセンタ対話の特性を利用 量が大量 多くのドメインの対話を扱うことがある 故障受け付け、引っ越し、契約、、、(数十〜数百個) 各対話にはドメインラベルが付与済み →各ドメインに特徴的な発話系列を抽出して要約生成
各発話にドメインラベルを付与し、該当ドメインに特徴的な発話のみを抽出 個々ドメインをモデル化→エルゴディックHMM 個々ドメインから学習したHMMを等確率で接続 そのままでは「確率が高い方」のみが選択 →全てのドメイン(ドメイン0)から学習したHMMも足してやる しかし平均になるためほぼ利用されない →連結学習の導入 ドメイン0+ドメイン1で再学習、ドメイン0+ドメイン2で再学習、、 を繰り返すことで連結学習。 再学習ではEMアルゴリズムにより、よく出現する発話の確率が高まる。 結果として、ドメイン0側では共通的な発話の出現確率が高まり、 選ばれる確率が上がる。 少ないデータからでも効率的に学習可能
Q: ドメイン別の学習をしつつ、全体としてどう組み合わせるかのバランスを 再学習という形で補うのは面白いと思うが、後からやるのではなく最初から マルチクラスとしての学習をするのとどちらが効率&精度的に良いのだろう。
会場Q: (1)コールセンタのオペレータにとっての振り返りには良いが、 業務改善については繋がらないようにも感じた。改善に繋げるのに どういう要約を検討しているか。 (2)発話シンボルに変換して学習するとのことだが、挨拶ぐらいの尤度だと どのドメインでも変わらないように思う。どのぐらいの値か。 A: (1)直接的に改善に繋がるかは分からない。まずはブラウジングを 想定している。重要な部分のみを見つけやすくすることで間接的に 役立つと考えている。(2)発話シンボルは今は100にしている。 いくつか試した範囲ではこれが適当だった。
会場Q: 解約したいという場合にはどういうイベントなのかがマークされていたが、 実際に欲しいのは「どういう理由で解約したいと考えたのか」 といったところでは。そういうのも取れてくるのか。 A: 難しい。目的がおおよその発話内容を把握可能にすることなので、 特徴的なものが出てくるところまで。個々の詳細については、 その後の話で、今は入り口としての形を考えている。 会場Q: それだとカテゴライゼーションと同じに見える。 A: カテゴリではなく、客が満足したとかしてないといった場合に、 その対話の特徴を取れるという可能性がある。もう少し工夫が必要だとは 考えている。
B4-4 コールメモを利用したコールセンタ向け音声対話要約方式の提案 (pp.924-927)
○田村晃裕, 石川開 (NEC)コンパクトな要約テキスト(音声)のニーズが高い アブストラクト型/抜粋型 教師データの有無 →教師データを使用しない、抜粋型要約 tfidf法:業務上必要箇所と一致しない。頻出する要件が含まれない。口癖が含まれる。
コールセンタのニーズにあった要約生成 蓄積されたコールメモを利用し、要約に含める。 使い方に工夫が必要 ベースライン:MF法(出現頻度が高い箇所を抽出) 通話とコールメモでの表現の不一致を考慮できない 提案手法:AS法 通話とコールメモの単語の相関を用いて表現不一致問題を解決 各単語の重要度=同一内容らしさ*コールメモにおける重要度 不要発話削除の導入 「はい」「えー」「○○コールセンタです」 発話出現頻度が閾値以上の発話
Q: 抽出したい「重要語やそれを含む文」にもケース次第で大きく異なる というのは面白い。汎用的にパラメタライズで「こういうケースの重要語」 というのを抽出しやすくできたりするのかしら。
会場Q: 二つの軸でindicative/informativeとのことだが、同じものに対して 2軸で評価した? A: infomativeは通話内容を漏れなく含む要約で、60%ぐらいに圧縮されたもの。 会場Q: F値が0.5ぐらいというのは、どのぐらい良いと思うのか。直感で。 A: 書き起こしに対して0.5ぐらいだが、実用に堪えうるかなというレベル。 音声認識誤りが含まれると、誤りを含む形で要約してしまうため対応が必要。
会場Q: 書き起こしを使うというのは実用としては考え難く、それぐらいなら コールメモが良い。如何に精度を上げていくか。音声認識誤りの対策として どういうことを考えているか。 A: 音声認識結果を良くしようというスタンスではない。誤りが含まれた 要約テキストを見せてしまうと分かりづらいので、音声を聞くことで 要約されたテキストの音声を聞くことで人間側で補正できるかなと考えている。
会場Q: 音声認識の精度はどのぐらいなのか考えてないとのことだが、 仮に100%だとした場合の評価があれば。 A: そのつもりで書き起こしで評価を行った。
B4-5 Toward Plan Recognition in Discourse Using Large-Scale Lexical Resources (pp.928-931)
○Naoya Inoue (東北大/学振), Kentaro Inui (東北大)談話の背後には登場人物の目的達成のためのプランがある そのプラン(goal-means tree)を文章から自動的に生成する 談話解析には世界知識が必要だが、昔は利用できるものが殆どなく、 研究としては廃れてきた 今ではFrameNet, WordNet等の大規模な世界知識が利用できるようになってきた →やってみよう!
プラン推論のモデル 談話から合理的な説明を求める→説明から目的/手段の関係を抽出 説明を求めるとは 仮説推論 abductive inference 背景知識Bと観測Oから最小の仮説Hを求める推論 細小にも色々ある:ここでは可能な仮説の中でリテラルが最小のもの →知識ベースに目的/手段関係も埋め込み、推論できるように工夫
知識ベース 既存の知識を変換したもの 同義語、上位下位等:数百万オーダー 極性知識:数万オーダー 人手でエンコードしたメタ・ナレッジ 一般的な知識
知識ベース充足性の確認実験 人手で同定した仮説推論まで辿り着けるか、推論パスを埋めることができるか 77.4%のアクションに対して埋めることが出来た そのうち半分はメタ・ナレッジを使う必要あり 失敗例の多くは固有知識が不足(カビキラーは何のために使うのか)
語彙知識はそれをどう使うかを考える段階であって、既に十分にある。 推論ルールが重要な役割を果たしていた
Q: メタ・ナレッジ部分が結構効いているようだけど、この部分はどのぐらい 質・量を用意したらどのぐらいの精度が出るか、といった目安はあるの かな。他との兼ね合いだというのは分かるけど、応用した結果を評価する のではなく、知識ベースそのものを評価するという意味で。
会場Q: 計算量はどれぐらい? A: 仮説推論をやって、最小仮説推論求めるのはNP-hard。 会場Q: 今後どういう方向を考えている? A: 将来は重み付きabductionがあり、それを考慮しつつ自動化していきたいと 考えている。
会場Q: ドキュメントはどんな文?ドメイン的な意味で。 A: 家事。 会場Q: 足りない知識は、ドメイン依存だと思う。こういう知識が 足りているのかという意味でいろんなドメインを試してみる必要が無いか。 A: 固有名詞に対する知識が足りていない。様々なドメインで出てくるだろう。 どんなドメインでやるにせよ獲得する必要あり。
会場Q: 正しくない解釈が得られる可能性もありそうだが。 A: 今回は別の問題として考えていて、今回は正しい説明が入ってくるかを 考えていた。正しくない候補が入ってくる可能性はでてくると思う。 会場Q: より小さくて、正しくない候補が入る可能性。 A: 確認してみたいと思う。
B4-6 視線情報を利用した協調作業対話における参照解析 (pp.932-935)
○安原正晃, 飯田龍, 徳永健伸 (東工大)人間と協調作業を行うシステム 参照表現:参照解析+参照表現生成 対象は参照解析(視線情報) 人間が無意識に生み出す情報のため負担が少ない
参照表現コーパス 協調作業対話コーパス:参照表現に人手でアノテーション 発話テキスト、ピースやマウスの位置など
参照解析手法 特徴ベクトル→ランキング・モデル 素性:談話履歴情報10個+オンマウス情報6個+操作履歴情報6個+視線情報6個 注視:100ms以上留まった場合。連続した視線位置の重心。 抽出区間毎に3つの素性を計算 予稿集には結果に誤りがあり、より高いスコアが出た
Q: オンマウス情報使ってるなら視線情報要らないんじゃと思ったけど、 何故精度改善に貢献したのだろう。数値化することにトリックがあるのかな。
会場Q: 視線情報とオンマウス情報は近いように思うが、どのぐらい一致するか。 改善したということはオンマウス情報より情報量が多いようにも思えるが、 履歴の有無が関係しているのか。 A: (1)視線情報とオンマウス情報の違いについてはまだ未解析。(2)オンマウス 情報には履歴が効いていなかったのではという点ついては、 それらを用いない場合でも殆ど精度が変わらない。 会場Q: 代名詞の場合は下がりますよね。代名詞の時と非代名詞の時の違いが面白い。
会場Q: 視線情報はどのぐらいの区間や時間で参照したら良いのか。 広過ぎてもピンポイント過ぎても扱いが困難だと思うが。 A: 今回は決めうち区間で試した。1300msとしたのは、 平均して高いスコアが出る区間だったため。
B4-7 直接照応解析における分野情報および文脈情報の有効性検証 (pp.936-939)
○浜田伸一郎, 齋藤佳美 (東芝ソリューション)直接照応解析 ある談話要素が指す、同一の事物や意味を持つ、他の要素を推定する技術 先行詞->照応詞 曖昧な語を具体的な語に置換したい(例えば要約) 直接法/全体法:両者とも欠点 表層一致ペア/表層不一致ペア 語彙分布は類似 語彙的関係は異なる 割合は:一致ペアは70%、不一致ペアは30%程度の差 →混合法 直接法同様、表層不一致ペアの解決が目的 ただし語彙分布の特徴で補完
表層一致ペア→表層不一致ペア 転移学習+表層一致ペアで用いられた語の頻度利用 文脈的素性:表層・意味が一致する近傍の表層一致ペア数 →両者とも改善に寄与
Q: TLみたいな「他人のツイートや話題」に対する照応みたいなところにも 使えるのだろうか。
会場Q: 効果のなかった素性はあったか? A: 今回提案した素性以外は標準的なものを用いて、 試した範囲では比較的有効であった。
会場Q: 要約に使えるという例は分かりやすかったが、 新聞記事にやるという場合でも同じ問題になるのか、差があるのか。 A: これは新聞記事の例で、同じ。
会場Q: 今後の部分一致しているのとしていないのとでどれぐらいの差があるのか。 A: 機械学習の重みとしては表層部分一致は結構重みが大きく、有効だと思う。 会場Q: 部分文字列で失敗するケースでは、ある程度予測がつくと思うが、 それは素性では含まれているか? A: 例えば表層が同じでも意味が違う場合には、意味の所で棄却できると思う。 会場Q: 意味素性でも同じでは? A: 意味素性では異なる。
A5:教育応用
3月10日(木) 15:50-18:20 A1-101教室 座長: 田中久美子 (東大)A5-1 学習指導要領に立脚した児童作文自動点検システムの実現 (pp.1045-1046)
○藤田彬, 田村直良 (横浜国大)文章の自動評価が必要となる場面が年々増加する見込み 記述式を含むe-learning/小論文試験/作文指導 労力的な問題 評価基準が安定しない
自動評価 要約の評価はあるが文そのものの(日本語は)評価はあまりない e-rater: 重回帰モデルで採点 Jess: 理想小論文を手本とする方式
学習指導要領の指導事項のモデル化 指導事項の分類 「B:書くこと」の「構成」と「記述」 点検:不適切と思われる箇所をマーキング(修正まではやらない) 独自分類:構文/結束構造/修辞・構成/モダリティ/etc. 教師による点検事例の解析 点検モデルの構築
Q: 絶対的な基準として学習指導要領を上げていたけど、そこからモデリング (独自分類)している時点で「モデル者の主観」が入り込んでる気がする のだけど、大丈夫なのかな。
会場Q: 作文データを入力して指導要領に合致する/しないのエンジン部分が 最も困難な箇所だと思うが、どう考えているか。 A: 既にあるシステムという点では、文法的な語彙チェックは例がある。 文章の構造構成を採点するというところが大きいが、ここに関しては未検討。
会場Q: (1)児童作文対象だと綺麗じゃない文だらけで、形態素解析だけでも かなり大変だと思う。(2)自動点検ではなく、本当に間違ってて指摘すると 大変だと思うので、その前に先生が見る時にアシストするシステムを考え、 そこから次に進むと良いのでは。 A: (1)作文点検する前に、助詞誤用等は洗い出した上で、利用を想定している。
会場Q: 提案だが、作文授業で起こりそうな例として、一部の生徒が何も手が 進まない。児童生徒が書いたものがあって初めてシステムが動くようだが、 何も書けない状態の児童をどう支援できるかという点も検討されては。 A: 実際その通りだと思う。
会場Q: 対象が小学生の作文とのことだが、小学生にPC使って作文させると 不感になると思う。実際に書くことが大事では。 A: 仰る通りだと思う。一番良いのは余り綺麗ではない文字でもそれを 認識するシステムがあると嬉しい。
会場Q: 児童の書いた作文を機械が採点する/点検するということで良いのか。 教師をアシストするのがあるべき一つの所かなと思う。あれもこれもやりたい ではなく、実際の教育現場で機能するのは何か、を考えては。 A: ありがとうございます。
会場Q: 作文教育のe-learning事例だと思うが、e-learningを考えると 何も考えずにデータが蓄積され、それを利用することが有効にはならないか。 A: 個人個人の傾向掴めたら良いなと思う。
A5-2 非日本語母国話者の作成するシステム開発文書を対象とした助詞の誤用判定 (pp.1047-1050)
○大木環美, 大山浩美 (NAIST), 北内啓, 末永高志 (NTT), 松本裕治 (NAIST)仕様書の品質向上が必要 ツールによる自動化支援 チェックすべき事項の調査 修正前後の文書セット 誤り割合:文法52%、語句26%、、 →助詞の誤用判定
機械学習による誤用判定+素性改善 対象文書:非母国語話者の仕様書 素性生成手順 基本:形態素解析&構文解析+固有表現正規化+助詞前後3単語の原形+係先
4つの改善案 助詞が不要な箇所を判定するための学習事例がない →全体として悪化しないよう、出現しないであろう箇所のみ学習事例を追加 原型しか使っていないため違いが判定できないことがある →単語の活用形情報追加 素性列がスパースになりやすい →単語と品詞を独立の素性として扱う 前後3単語と係先以外の有用な情報が素性に反映されない →同じかかり先を持つ助詞の追加 実験より全組み合わせ時が最も良い精度を示した
Q: 招待講演で話題があった「企業毎のガイドライン」と比較してどちらが より優先順位が高いのだろう。そもそも開発も海外にやらせるなら仕様書 を日本語で書かせることの意味が良く分からないというのもあるけど。
会場Q: データについて。中国人技術者の書いた仕様書のようだが、清書する ことがあるのだが、日本語能力試験でN1レベルとN2レベルがあって、 英検1級2級ぐらいの差がある。もともとどのぐらいの日本語入力レベル の人が書いたかによって変わらないか。 A: そこは調査は行えていない。それなりに幅があるということは聞いている。 他の研究例でもあるが、日本語能力が高い方については余り間違えないので 誤用判定しても「正しいものを誤検出した」という話があるとのこと。 今後検討したい。
会場Q: 前提のエラータイプについて。翻訳の関係で実際に営業でクライアント と話すと、気持ち的に耐えうるものとそうじゃないものがある。安ければ 良いレベルというのがあるらしい。助詞エラーの中で、クリティカルなものと、 そうでないものがどれぐらいあって、どれぐらい対処できたのか。 A: その問題は起きており、70%ぐらいはなおした方が良いだろうというもの。 30%ぐらいは好みの問題レベル。そこは誰が書き直すかが問題になる。 ただし仕様書としては統一した用い方をした方が良い。仕様書の品質を 高めるという目的のため、誤用として扱っている。
A5-3 翻訳教育向け「みんなの翻訳」 (pp.1051-1054)
○影浦峡 (東大), Thomas, Martin (Leeds大), 阿辺川武 (NII), 内山将夫, 隅田英一郎 (NICT), Hartley, Anthony (Leeds大)翻訳教育 現場では教員にまかされており、やり取りやログが共有されていない 過去の記録を活用できていない →やり取りの体系化 「みんなの翻訳」は自立した翻訳者・グループ向け 基本的に自分でやろうとする初心者向け →よりきめ細かい対応
共同翻訳プロジェクト →関与する要素とプロセスの定義を洗い出し 複数の人が関わり、比較的複雑な会話セッション テキストエンティティ:文書集合/個別文書/テキストスパン 参加者の役割:翻訳者/修正訳者/レビュア/アドバイザ/ターミノロジスト やりとりのタイプ(仮):要求/通知/説明/解決/激励/感謝 やり取りを作業プロセスに位置づける 文書集合レベルを巡るやり取り 個別文書レベルについてのやり取り テキストスパンをめぐるやりとり →まだバランスが良く分からず 教育目的としてはある程度統制した方が良いが、 統制し過ぎても教育効果が薄れる等、要検討が必要。
翻訳教育向け「みんなの翻訳」は2011年7月に公開予定
Q: ユーザビリティとかではなく、統制バランスが教育効果にも影響を及ぼす というのは考えたことが無かった点。うまく評価する方法があるのか、 そもそも利用者のレベルによっても異なりそう等現場でカスタマイズ せざるを得ない部分も少なくないのかな。
会場Q: (1)ブロックで翻訳の修正等議論が行われいるようだが、議論結果を 共有する仕組みはあるのか。(2)作業者の問題で、修正翻訳をする人/チェックを する人を必ず用意する必要があるようだが、対象言語力が無いと人員確保の 問題が無いか。 A: (1)修正カテゴリタイプでコントロールした上で、インスタンスをまとめる。 それ以降については言語処理的なメカニズムでフリー記述・討論を まとめられると、半分自動化できることを期待している。 (2)リバイザは原文を見て修正する。レビュワーは翻訳された対象文だけを みて修正する。翻訳教育の現場では必ず全ての役割と異なる人がやる必要 はない。関わった方が教育効果が高いというのもある。役割分だけ異なる人を 準備する必要は無い。日本とは異なる事情として、欧州ではかなり学生数が 多いためそこは問題になり難い。
会場Q: このシステムは、学校に配布して教室の中で、その場で使う?オンライン? A: その場に居て使うシステムとして設計している。 会場用Q: ペアプログラミングというのがあるが、それを如何にシステムで 補助するかという話がある。 A: 参考にしたいと思う。
A5-4 Stativity判定に基づいた時制誤り検出 (pp.1055-1058)
○永田亮 (甲南大), Vera Sheinman (教育測定研究所)シンプルな方法:コーパスから現在/過去/未来を判定する分類器を構築 困難 →Statiity判定する分類器を構築
発音してみよう I read the book.→過去を示す表層情報は無いのにレッドと発音 何かが隠れているのでは? →Stativity: 動詞の分類 動作動詞/状態動詞 動作動詞:現在の動作に対して単純現在を使用することは制限を受ける 単純現在の動詞抽出 動作動詞なら時制誤り →どうやってStativity情報得るか? →単純なif-thenで決めうちして良いのか?
コーパス→学習データを人手で作成 Stativity判定を行うME分類器 動詞毎に分類器を作成 現在形で使用できる動作動詞 習慣的動作/一般的真理/未来の確定した予定/「時」「条件」を表す副詞節中 →先行研究と比較して検出率&検出精度共に高い(6割弱)
Q: 実は例文で「リードとは読まない」というのが納得できていなかったのだけど、 制限を受けるだけで可能性がゼロだという話ではないということでやや納得。 ただ、その例外規定がこれで十分なのかが良く分からず。実際問題としては、 結果見る限りは「これで多数は問題無い」ということらしいけど、 まだ検証例が少ないだけじゃないのかな。
会場Q: Stativityという概念が効果があるというのは直感的にも分かる気が するが、分類問題では置き換えただけになっていないか。うまくいかな かった方は3値分類でやっている。 A: 1分類としてやればできるという可能性もあるが、まだやれていない。
会場Q: 時制誤りについて、副文で時制一致がいる例というのはどういうのがあるのか。 A: 主となる動詞と副文となる動詞は、そんなに強い制約ではないと考えている。 ただ、よりうまくなるケースとしては使えると思う。
会場Q: Stativityを現在/過去に置き換えると同じ問題になるような気がしている。 前後3単語でME決定していたが、人間がやるとどのぐらいなのか。 A: 一般の新聞だと分からないが、教育用問題では典型的な用法が多く、 それについては迷うことは無い。分からなくて除外したものもいくつかある。 アノテーションは一人でやってしまった。
会場Q: 書き手に何かフィードバックをかけることは可能なのか。 A: どこが違うよと示すだけでも役立つと思う。具体的なところはこれから考えたい。
A5-6 最大クリーク探索に基づく特許検索履歴の統合 (pp.1059-1062)
○乾孝司 (筑波大), 難波英嗣 (広島市立大), 橋本泰一, 藤井敦, 岩山真 (東工大), 橋田浩一 (産総研)特許に関連した先行技術調査 先行技術調査における集合知の循環 →先行技術調査の生産性を持続的に高める 注釈や検索履歴を循環させて利用するために辞書作成 今回は履歴&検索質問からどう辞書を作るかについて
入力支援:OR質問 辞書構築:関連語辞書 検索はAND/ORを組み合わせるが、OR質問への入力を支援 例:(半角Web+全角Web+ウェブ) * サービス (A+B+C)*(D+E) 頑張ってやる部分、連想をサポート シソーラスでは概念粒度の違い、良く分からないものがあり、サポートしづらい →蓄積される履歴を利用
検索意図により「関連」の意味合いが異なる 観点に基づく構造化 例:観点1(認証:画像、指紋、)、観点2(音:音楽、サウンド、、)
IPCCで行われている方法 OR部分の共通性に基づく統合・登録処理を繰り返すことで関連語を増やす 履歴と共通部分が多いなら加える どの検索者が入力した履歴かを問わないため、ノイズになる可能性。 →さらに他検索履歴も参照し、エビデンスを確保(履歴中でOR結合している場合だけ登録)。 IPCC法はincremental、エビデンス利用だとbatch処理 →履歴情報を単語グラフ表現+最大クリーク探索(極大クリーク列挙)
Q: データをグラフ化→最大クリーク探索という問題への落とし込み方が面白い。 観点をどう求めるかは良く分からなかった(クリーク=観点?)けど、 条件緩めることでいろんなことに応用が利きそう。
会場Q: クリークを使った利点を教えて欲しい。普通なら確率とかでも良さそうだが。 A: 元々の問題設定としては、クリークを見つけないと制約を満たせない。 確率的なやり方もあるかもしれないが、今回は見つけていない。 会場Q: 完全クリークのみ? A: 擬似的なクリークは取っていない。ただし、若干観点を分け過ぎている ようにも見えるので、制約が強すぎるかもしれない。
A5-7 テレビスポーツ番組におけるリアルタイム字幕の特徴 (pp.1063-1066)
○福島孝博 (追手門学院大)テレビ番組の字幕 Open vs. Closed Captions 生でない番組への字幕:ほとんど付与 総務省方針:2017年度までに生番組まで拡大 典型例としてスポーツ番組 サッカー:4名登場(実況アナウンサー、解説者2名、ピッチレポーター) 大相撲:3名登場(館内アナウンス、呼び出しはもともと字幕対象外) 字幕 1,2行30字程度 話者を色分けする傾向
固有名詞 基本的に省略せずフルネーム サッカー:海外選手は文字数多いためか、字幕として生成されないことが多い 大相撲:字幕者にもよるが、発話以上に名前が生成されることが多い 発話速度 サッカー:発話が早い、字幕が出ていない時間帯あり(追いついていない) 大相撲:比較的ゆっくり、一部で要約率1.0を越える(リスピーク方式)
字幕の問題点「泣き別れ」 「青いユ」「ニホーム」 サッカーにて8回、大相撲で0回
今後 情報保証のためのテレビ字幕のあり方を明らかにする
オーストラリアの例 ノーマルタイプとヒアリングタイプを選択できる(差は良く分からなかったが)
Q: 米国だとかなりがっちりリアルタイムでもタイプしまくられているよう だけど、そっちでは情報保証をどう考えているのかな。あと、そもそも 文字だとなかなか理解できないケースもあるらしいので、よりリッチな サポート方法というのはまだまだ考える余地が数多く手つかずになって いるのかもしれない。
会場Q: ワンセグで字幕見てると納得いく話で、興味があるのは聴覚障害者 への要約費。健常者と一緒に授業受けたいとか。TVに絞っている理由や、 他への応用について何かあれば。 A: 聴覚障害者への情報保証の話をするといろいろあるが、TVならTVでの制限 などを考えていく必要がある。どういう字幕ができるかという点で調べている 段階。情報保証としての字幕であるべきで、人権問題にも関わってくる デジタル時代の対応問題。リアルタイム番組におけるあるべき姿を模索している。
会場Q: 現状のTV字幕で遅延時間については何か調査結果があるか。 A: TV局に聞くと良いと思うが、ある程度以上遅れてはいけないという ガイドラインがある。サッカーでは完全に遅れている。ある程度の時間で 区切って出している。