言語処理学会第18回年次大会(NLP2012) 1日目レポート
自然言語処理学会第18回年次大会(NLP2012)の本会議1日目」に参加してきました。
去年もそうでしたが、今回も興味のあるタイトルをピックアップしていってもどのセッションにするか迷ってしまいます。悩んでても仕方ないので、今回は「頭脳プロジェクト(「ロボットは東大に入れるか」キックオフシンポジウム)」に参加したことと繋げる意味を兼ねてそれ関連に見えるテーマがある以下のセッションに参加してきました。
・セッション1: D1: 文脈処理
・ポスターセッション: P1: ポスター(1)
・セッション2: C2: 言い換え
以下、その参加メモになります。
naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。
(ちなみにおじさんは既に体力の限界なんですが、若手研究者対象の「第10回YANS懇」というイベントで盛り上がってるらしい。去年もやってたようですが、基本的に情報があまり表に見えない(気づいてないだけ?)ので良く分からないけど、とても楽しんでるっぽい雰囲気がたまにツイート検索で見つかりますw)
[ 訂正情報 ]
[2012-03-15, 18:51] D1-6について、発表者よりQAの一部に質問が混ざった解釈になっていたとのご指摘を頂きましたので、修正しました。
参考ツイート: 杉浦さんからの指摘、當間、具体的な指摘1、具体的な指摘2
<目次>
D1:文脈処理
- D1-1 Social Choice for Anaphora Resolution
- D1-2 辞書情報を利用した間接的照応関係解析の試み
- D1-3 超語彙パターンに基づく連辞型響鳴連鎖の自動発見手法の提案
- D1-4 コーパスに基づく雑談を目的とした発話役割同定
- D1-5 発話文の前提の推定
- D1-6 説明生成に基づく談話構造解析の課題分析
- D1-7 大規模世界知識を用いた仮説推論による談話解析の課題と対策
- D1-8 テキストからの物理モデル生成に向けて
- P1-1 “名詞らしさ”と品詞の概念 (pp.199-202)
- P1-3 日本語深層格の自動抽出のためのコーパス開発 (pp.205-208)
- P1-4 「やさしい日本語」のための語彙制限の検討 (pp.209-212)
- P1-10 対話文からの意図・感情推測精度向上〜漫画を例にして (pp.231-234)
- P1-11 複数ドメインの意見分析コーパスを用いたアンサンブル学習による意見分析システムの提案 (pp.235-238)
- P1-26 自動抽出した利用者の視点によるレビュー要約 (pp.295-298)
- P1-31 文書から取得した制約知識に基づく潜在的トピック抽出 (pp.313-316)
- P1-32 1つの質問に投稿された異なる意見の回答の抽出 (pp.317-320)
- C2-1 語概念連想を用いた複数単語からの連想語生成手法の提案
- C2-2 内容語および機能語との共起分布を用いた述部の同義判定
- C2-3 機械翻訳文言い換えシステムにおける学習機能の拡張
- C2-4 定義文から自動獲得した言い換えフレーズペアの分析
- C2-5 印象尺度に基づいた文章言い換え手法
- C2-6 法令文の構造的書き換え
- C2-7 Supervised Recognition of Entailment Between Patterns
- C2-8 含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
- C2-9 大学入試センター試験を題材とした含意関係認識技術の評価
D1:文脈処理 3月14日(水) 9:00-12:00 602講義室 座長: 東中竜一郎(NTT)
D1-1 Social Choice for Anaphora Resolution ○西口純代 (東京理科大)
「彼/彼女」といった代名詞が指してる照応解析を Social Choice Theory(社会的選択性理論)で解決しましょうという話。
Binding Conditions という方法でもある程度解けるけど、難しい状況がある。
代名詞の指してる候補が複数あって選ぶのが困難な状況において、
speaker’s intention decides the reading という仮定に基づく方法で解決するっぽい。
naltoma: 自然な推定に見えるが、この推定で失敗するケースは無い?
naltoma: 複数候補(複数人名)が出てくるシチュエーションでもどんどん話題が変わっていくケースがありそうだが、解決できそう?(具体的な例文考えないと卑怯な質問だけど)
Q: 社会的選択性理論を使っているが、スピーカーと聞き手が同じ選択をするのか?
A: そこはまだ分からない。
D1-2 辞書情報を利用した間接的照応関係解析の試み ○良峯徳和 (多摩大)
SNePS(Common Lisp)コードのグラフ表現として表現し、処理するという古くさいアプローチ(本人談)。
自然言語コンピューティングのような応用を想定して、常識的な知識/文脈を通じて意味を絞り込むことで多義的な曖昧性を絞り込む。
対象問題:間接的照応関係/橋渡し推論(e.g., a blue Mercedes -> the wheel)
Wordnetをメインに、補助的にwikitionaryを利用した辞書情報を元に「Mercedes, driver, wheel」間の相互関係解釈について検討。
naltoma: Stanford Parserの結果を利用するようだが、そこでのエラーはどのぐらい問題になる?(パーサ自体が解析しているという話にならないか)
Q: Wordnetとwikitionaryを併用した理由は?
A: WordnetではMercedesのような固有名詞は弱いので併用した。
D1-3 超語彙パターンに基づく連辞型響鳴連鎖の自動発見手法の提案 ○吉川正人 (慶大/学振), 伊澤宜仁 (慶大)
断片化、プランニング、適切性判断等の認知負荷軽減に役立つとされている、話者を跨いだ類似発話の反復=響鳴(resonance) を自動発見したい。
対話統語論における中心的な分析対象
会話データには構文解析を適用し難い(断片性)
「_」置換した網羅的パターン生成し、グラフ間マッピングで抽出
naltoma: (逆に)饗鳴自体を機械的に決めてしまって、適度な揺らぎを加えて対話することで「自然」らしくなったりする?
Q: 単位は文?
A: 韻律単位と呼ばれてて、文よりは小さい単位。
Q: 長い文だと取れないという話だったが、それを分解して処理すると解決できそうだが。重み付けでも良さそうではある。
A: 「so」が入っててその前後で切ったり、重みを付けるというのはできそう。
Q: 抽出できなかったのは?
A: 隣接発話ということで間に何か挟まった形のものは除いている。これが10例ぐらい。他にも難しそうなケースが4例ある。
Q: どういうところで饗鳴したと判定した?
A: 質問応答で「Are you…?」に対する「I am …」のようなものは定型文に近いので除外、というようなルールをいくつか設定した。
Q: 対話だと相手のことが分かってるよというような意味での言葉とかもあると思うが。
A: そういうことを前提にして検討してみた。
D1-4 コーパスに基づく雑談を目的とした発話役割同定 ○平尾卓也, 松本和幸, 北研二, 任福継 (徳島大)
話者視点での文の持つ機能=発話役割(事実/心情/依頼など)
タスク遂行対話/非タスク遂行対話(対話自体が目的)
非タスクでは対話の流れを予測することは困難
従来のルールベースではそれ以外のケースが役割推定できない
「SWBD-DAMSL(発話種類を記述したタグ)+助詞・助動詞の意味」を人手で談話に役割タグ付与
形態素2-gram->品詞組み類似度で判定。品詞毎に重み調整?
naltoma: 特徴ベクトルを構築する際か類似度算出の際に、重みを調整しているようだがどうやって調整している?
naltoma: タスク遂行/非タスク遂行対話の違いが最初に述べられたが、今回のアプローチで「非タスク遂行対話」に特化した部分はどこか?
naltoma: 品詞ベースでは頭打ちにならない?
Q: 「助詞・助動詞だけでは役割が判定できない」という例を挙げてもらえないか。
A: 「寂しい」という心情も判定する必要がある。
Q: 対話を扱っているのに先行文脈を一切使っていないのは何故?
A: 今回は一文でのみ処理しているが、対話処理初めにおける役割推定を想定している。
Q: 対話行為を推定するというのは米国でも多数事例があると思うが、違いは? 例えばスイッチボードでタグをあてる例とか。
A: 調査してみたい。
Q: 選んだタグは何故そうした?
A: 差異を見るため、先行研究で採用しているタグを採用した。
Q: 今回扱った掲示板ではどういう内容が話されていた?
A: いろいろ。ドメインがあるわけではない。
D1-5 発話文の前提の推定 ○冨永善視, 島津明 (JAIST)
複数主体による共同行為->相互信念/共通基盤が必要
発話の前提は聞き手がその発話を否定しない限り、聞き手は前提を承知した(受け入れた)と考えることができる
先行研究(英語)では70%程度の性能
日本語文の前提トリガー
単語型トリガー:特定の単語がトリガー
構文型トリガー:特定の文構造がトリガー
naltoma: 語彙や意味みたいなものと一緒で、前提を網羅的に列挙するということはタスク設定として妥当なのか?
Q: 前提の意味が分からなくなってきたのだが、含意とかはどうなる?
A: 前提と考えることもできるが、含意として説明した方が良いんじゃないか。
Q: 「前の因縁をやりかえす」みたいなものも前提?
A: はい。
Q: 「車がターンする」も前提?
A: 何かしらの前提、車が走ってるとかはあると考えられる。
Q: システムの入出力、特に実際の出力のについて教えて欲しい。
A: 具体的な出力は用意してなかったので見せられない。
Q: 600文の中にどれだけ前提があったのか?
A: 網羅的に出すことまではやってなくて、ランダムに選んだ50文に対して網羅的にやると36の前提が見つけられた。
Q: 存在の前提(犬が吠えた->犬がいるとか)は?
A: 存在前提もあるが、今回は扱っていない。対応する必要があるとは考えている。
Q: この辞書公開してもらえないか?
A: 検討します。
D1-6 説明生成に基づく談話構造解析の課題分析 ○杉浦純, 井之上直也, 乾健太郎 (東北大)
2文間の意味的関係認識。特に文間に接続表現がない場合(impilit)が対象。
先行研究:主に表層的な情報が手掛かり->F値0.40程度
非明示的な情報(照応関係や常識など)を手掛かりとした認識モデル「談話に対する説明生成モデル」で解決したい。
仮説推論:今回は4種類の知識。関係間の関係の知識により事象間の関係を導けるという特徴がある。
WordNet, FrameNetと比較評価:inhibitなどが困難
naltoma: 2者間で異なる認識を有している状況をモデル化できる?(≒矛盾と同一状況と看做せる?)
naltoma: 常識を人手で与えているようだが、どのぐらい必要だろうか? 全て列挙できるだろうか?(列挙後どう選択する?abductionだけでいい?)
Q: 文章とgive,inhibitとかの対応、翻訳規則は?
A: boxerというツールで論理式に変換。
Q: FrameNetの知識と比較してカバー率を調べてるようだが、FrameNetにどういう情報があって、どういう風に知識がつくられているのか?
A: FrameNetの中にFrame間関係が書かれている。cause関係にあるのはどれか、といった点は自分で考えて与えた。
Q: ほぼ自動的に設計できる?
A: いろんな種類があるので1対1とは言えないが、そう考えられるものを抽出した。
Q: althoughが含まれた例になってるがこれはたまたま?
A: たまたま。生成された説明文の正しさを判定するのが困難だったので、試験問題から選んだ。
Q: althoughが含まれた例になっているが,接続表現を含まない文間関係を対象としていなかったか?
A: 説明を生成する際にはこのalthoughは消している
Q: センター試験の問題文を用いた理由はあるのか?
A: 生成された説明文の正しさを判定するのが困難だったので、ある程度平易で正しい英語が用いられている試験問題から選んだ。
Q: abductionらしさがなかったように思うが、競合する仮説の取捨選択は?
A: 知識を増やしていくとそういう話になると思う。
D1-7 大規模世界知識を用いた仮説推論による談話解析の課題と対策 ○井之上直也, 乾健太郎 (東北大), Ekaterina Ovchinnikova, Jerry R. Hobbs (USC/ISI)
潜在する情報を顕在化(推論)したい:論理ベース推論
あらゆる命題列挙->最適組み合わせを選択: 推論基盤技術が必要
論理式変換時に20リテラル相当入力->1000個リテラルの組み合わせ最適化->37万推論規則: 2.6秒
仮説推論+仮説選択高速化(ILP)+無矛盾性制約
オーバーマージ問題:意味的互換性以外も考慮する必要がある
naltoma: 論理として表現できる談話のバリエーションは?(現時点でどのぐらい設計できていない?)
Q: 背景知識が矛盾してても動かないと使い難そうだが、どうなっているか。
A: 与えられる背景知識と観測は矛盾していないものという仮定で定式化している。条件は成り立っている。
Q: 実際に扱ったデータもそうなっている?(チェックした?)
A: ILPの定式化における仮定のみで、データ上でのチェックはしていない。
Q: その仮定に対して矛盾している時に何が起きる?
A: その場合には、何らかの推論が起きるには起きるが、生成された仮説が満足しているかは保証されない。
Q: 含意も?
A: その通り。
Q: オーバーマージ問題に興味がある。統語的な情報を扱う事を考えているようだが、どういう時に単一化してはいけないのか。そこら辺をチェックし始めると時間が遅くなりそうだが。
A: あらゆる単一化できない条件をエンコードしようとすると現状の速度は出ないと思う。現在考えている方針は、単一化できないような、してはいけないような仮説が含まれてる時に値を小さくするような関数を学習しようとしている。
Q: 背景知識で「嫌だったら辞める」とか書いてたが、そういう強烈な背景が合っても良いのか?
A: 背景知識として hage(x,y)->resign(x,y) というのを入れているが、実際にはそれがどれぐらい信頼できるのかという値を考慮してるのでソフトな推論が出来ている。「だろう」がついてる。
Q: 単一化について、x,yを入れ替えるということ自体が推論になっていないか?
A: 後で。
D1-8 テキストからの物理モデル生成に向けて ○横野光, 稲邑哲也 (NII)
テキストが書かれた状況の理解: 形式的なモデルの獲得->シミュレーションによる次の状況の予測
大学入試の物理問題に限定「ロボットは東大に入れるか@人工頭脳プロジェクト」
記述されたある状況で起こる現象についての問題、知識を問う問題:前者に対してシミュレーションベースでアプローチ
出現する物体/物体間の位置関係/物体の動作 状態遷移モデル
位置関係に関与する要素
文のタイプ同定+事実性判断+照応解析(ゼロ代名詞、相対名詞のノ格、イベント)+述語項構造解析
naltoma: テキストのみで生成したいモデルは複数?後で図等の別要因を使って絞り込む?
Q: 図を見ないと解けない問題がどれぐらいあるか?
A: 頑張ったらなくても分かるというのが2/3ぐらい。1/3は図が必要。図中に記号で示されてることもあるので、そういうのはOCR的に相対位置を見るとかある程度やれそう。
Q: コメントだが、アノテーションしていってカバー率がどう変化するかをやっておくと比較評価しやすくなる。
Q: 場所を表す名詞には着目しない?
A: 相対名詞が何かというのは先行研究があるので、それを参照使用と考えている。
Q: 何が起こるかみたいな記述があると思うが、物理シミュレータでは何かが動く。その中からどれが適切かというのを選ぶ必要がありそうだが、物理シミュレータから生成するのか、シンボリックにマッチングするのか。
A: 基本的には物理シミュレータの数値でグラフを書く問題なら書かせるといったことを想定している。
Q: 図を使わないといけないのは図で表現しないといけないようなものだと思うが、今回はテキストベース。図ベースをしないのは何故?
A: 写真ならともかくイラスト抽象化された図では難しい。数値化されたものを使いたいということでテキスト+シミュレータから。
Q: バネ論はいろいろやられているので参考にすると良いかと。デバイスオントロジー。
P1: ポスター(1)
P1-1 “名詞らしさ”と品詞の概念 (pp.199-202) ○塚脇幸代 (フリー)
言語体系と呼んで良いのか分かりませんが、現行の品詞体系が複雑怪奇なので見通し良い体系化できないかというのを遠くに見据えた第一歩の研究らしい。
P1-3 日本語深層格の自動抽出のためのコーパス開発 (pp.205-208) ○松田真希子 (金沢大), 森篤嗣 (帝塚山大), 川村よし子 (東京国際大), 庵功雄 (一橋大), 山口昌也 (国語研), 山本和英 (長岡技科大)
(タイミング合わず遠目にポスター眺める程度)
「二格」に焦点を絞って人手で意味属性+深層格付与。
その際の傾向や特性についての考察があれこれあったみたい。
naltoma: 深層格は一意に定まるもの?(クラス分類?)
naltoma: 一意に定まらないとしたらどのような基準・指針で設計するべきorした?
P1-4 「やさしい日本語」のための語彙制限の検討 (pp.209-212) ○杢真奈見, 山本和英 (長岡技科大)
(タイミング合わず遠くから眺めた程度)
先週のIPSJであったような話と近いのがあるのかなと思って違いとかを聞きたかったんですが、タイミング合わずに残念。
制限言語とか「やさしい日本語コーパス」とかで上位概念に言い換えるとか云々らしい。
P1-10 対話文からの意図・感情推測精度向上〜漫画を例にして (pp.231-234) ○河原直弥, 岩下志乃 (東京工科大)
私の想定と違って、漫画家さん(でいいのかな)に便利に使ってもらうための位置付けっぽく、フォント推薦とかしたいという話らしい。
吹き出しの形状毎に感情を手動定義+台詞の感情表現を使って推定するとか云々。
コメディとかでの「意図的に場面無視した表現/選択」というような、作者の意図はまだ想定してないらしい。
P1-11 複数ドメインの意見分析コーパスを用いたアンサンブル学習による意見分析システムの提案 (pp.235-238) ○高村慎太郎, 吉岡真治 (北大), 関洋平 (筑波大)
ここでいうドメインとは「Yahoo!知恵袋」「新聞記事」とかそういうもので、ドメイン毎の特徴があると思われるコーパスを
・全部まとめてごっちゃにして学習する場合
・個別に学習した場合
・組み合わせて学習した場合
とかケース分けしていくつか試した結果、基本的にはドメインで切り分けてアンサンブル学習することで精度向上するという話。
「ドメイン」自体の定義はまだ曖昧で、「Yahoo!知恵袋」の中にもいろんなドメインがあるという可能性はありそうとのこと。
ただし、今回の想定としては学習用コーパス自体が比較的小さいもので、どううまく活用するかという所に焦点があるらしい。
P1-26 自動抽出した利用者の視点によるレビュー要約 (pp.295-298) ○田窪直人, 鈴木良弥 (山梨大)
私の想定と異なり、「利用者の視点=自動抽出したキーワード」という設定での要約。
これはこれで面白かったんですが、「要約」したいキーワードをTFIDFチックに重要度で決めてしまうというのは逆に「見たい要約」を削ってる側面もありそう。
naltoma: 「利用者の視点」とは?それをどう反映させた?
naltoma: 「利用者の視点」の入力は一度きり?何度か繰り返すことで「過去の視点」を正したり、流れを見ることで補正したりする?
P1-31 文書から取得した制約知識に基づく潜在的トピック抽出 (pp.313-316) ○立川華代, 小林一郎 (お茶大)
(遠くから話を横耳しながら眺めた程度)
一般的なLDAとかだとユーザの意図と異なる学習してしまうことがある。
そういう意図の一部をキーワード的に与えるという事例もあるが、今回はその与えるキーワードリスト自体を自動生成したらしい。
それって「ユーザに意図に則したコーパスを用意すること」を強いてるようにみえてしまうのだけど、何か勘違いしてるのかな。
naltoma: ここでいう「潜在的トピック」とは?抽出した「トピック」はどう解釈する?解釈の必要が無い?
P1-32 1つの質問に投稿された異なる意見の回答の抽出 (pp.317-320) ○小島正裕, 南口勝志, 西村涼, 渡辺靖彦, 岡田至弘 (龍谷大)
私の想定と異なり、「Yahoo!知恵袋とかに見られるQAサイトでのベストアンサーとそれ以外のアンサー」をペアにして、「同じ意見か否か」の2値分類学習しましたという話。これはこれで面白い設定。
naltoma: 「意見」の定義or分類はある?(≒談話構造におけるサブクラス?)
naltoma: 「異なる意見」の定義or分類はある?
C2:言い換え 3月14日(水) 15:00-18:00 504講義室 座長: 関根聡(NYU,楽天技研)
C2-1 語概念連想を用いた複数単語からの連想語生成手法の提案 ○芋野美紗子, 吉村枝里子, 土屋誠司, 渡部広一 (同志社大)
自然言語による操作やコミュニケーション
言葉の意味を解釈できるか/違和感の無い操作や反応が行えるか
常識/連想:ある情報から新たな情報を生み出し、結びつける(調子が悪い->病気風邪最近寒い)
語の知識をモデル化:概念ベース+関連度計算方式+共通関連語法+最小関連度雑音処理 -> 複数語から連想語生成
naltoma: 構築した概念ベースはドメイン固有? ドメインフリー?
naltoma: コミュニケーションにもいろいろあると思うが、「共通関連語法」のような制約が強過ぎて同じ単語しか生成できずにワンパターンと化してしまうことは無いか。
naltoma: 言葉としてうまく表現すること自体が難しい事象をモデル化できるか。(言語として発話/生成された時点で欠落した情報は必要無い?)
Q: 概念ベースではどう構築した?
A: 国語辞書の見出し語が概念一覧。見出し語に対する説明文を形態素解析し、属性とした。さらに新聞記事との共起を見て付与したり、ノイズ処理したもの。
Q: 今回での失敗事例は、概念ベースが十分じゃないから出て来ないのか、手法に問題があるのか。
A: 雑音が一杯出てきてしまい、省ききれていない。
Q: それは概念ベースの精度?
A: 概念ベースは語の関係を示しており、その観点では確かに関係はある。ただそこから連想しようとすると問題になる。
Q: 連想語を大きく分類すると、類縁性/近接性(似た者通し)か群類性に分けられる。その観点から何か検討しているか。
A: 今回は概念ベースを使って出てくるものは関係しているだろうという点から出しているだけで、人間がどう考えているかという視点はまだ組み込めていない。
Q: 例えば「動詞」があるとそれに関連のある言葉はあまりにも幅広いと思う。
C2-2 内容語および機能語との共起分布を用いた述部の同義判定 ○中村紘規 (京大), 泉朋子 (NTT), 柴田知秀, 黒橋禎夫 (京大)
自然文において述部は文の意味の中心:ブレーキを踏む=ブレーキをかける
述部の同義判定をしたい
先行研究+述語項と共起する機能語(出現頻度の高いガ格、ヲ格)の分布も加える
素性ベクトル作成+Weight関数+Measure関数
naltoma: 機能語を抽象化して素性ベクトルにできないか?
Q: テストコーパス(データ)はどうやって作った? 意地の悪い見方をすると、「そういうデータだからこういう性能の差が出た」と言われることがある。
A: テストデータと手法については別物として作った。
Q: 他のデータに適用した時に同じ傾向が見られるかどうか。ランダムサンプリングするとか。
A: 今回のデータはブログからランダム選択して設計した。
Q: 最適化するという他立場から見ると強い制約をかけているように見えるが、何故こういう形にしたのか。
A: 先行研究に習ったというのが大きな理由。
Q: NTCIR9でテスト&トレーニングのコーパスがある。参加者に対してそのデータを公開して使ってもらおうかと考えている。それを使って検証してみると良いんじゃないか。
C2-3 機械翻訳文言い換えシステムにおける学習機能の拡張 ○鈴木良生, 田添丈博 (鈴鹿高専), 椎野努 (愛工大)
長文・複雑な文では直訳で固い/意味を取りづらい訳文が生成される。
英文->不自然な日本語->自然な日本語
学習機能:係り受け解析による曖昧一致文節学習
関連する/関連した:し+た->「た」削除->「する」原形
レーベンシュタイン距離+コスト調整
naltoma: 枠組みとしては作文支援システムと同等?
naltoma: この方式だと衝突するルールを多数学習してしまわないか?
naltoma: 自然でない文においては、係り受け解析自体の失敗が高く無いか?
Q: 学習数、学習成功数というのはどういう定義?
A: 学習数はマッチングしたもの。学習成功数は正解数と一致したもの。
Q: 翻訳の質を上げるためには、翻訳のモデルを改良するという立場と、日本語側の質を改良するという立場があると思うが、後者の特徴は? 普通は翻訳モデルを向上しようとするが、今回は言い換えることで質改善しようとするようだが、そのメリットや特徴が知りたい。
A: 既存の翻訳機でできなかったことを改善したい。
Q: それを言い換えだとすんなりできるというような説明があると納得しやすい。
Q: 正しい翻訳があって、更に例で挙げた「頼んだ」に置き換えるような方法を導入するという形になると、機械翻訳とは異なる話になってくるように思える。
C2-4 定義文から自動獲得した言い換えフレーズペアの分析 ○河合剛巨, 橋本力, 鳥澤健太郎, 川田拓也, 佐野大樹 (NICT)
自明でないフレーズペア(ユーザのブラウザに送信する利用者のブラウザーに送る)が大量にあり、先行研究でもランク下位。
先行研究:同概念の異なる定義分に含まれるフレーズペアとし、言い換えらしさを判定(SVMスコア)。
語彙資源+単語間アライメント -> Trivial / All / Partial / None
Allの細分類: 述語間の関係で3つに分類。Partialも細分類。
今後人でアノテーション精査後にALAGINで公開予定
naltoma: 定義文自動獲得はどのぐらい収集出来ている?(収集漏れてるものは言い換え判定自体困難?)
naltoma: フレーズペアでの言い換えを考えているようだが、言い換え可能性は文脈依存?非依存?
Q: 誤って検出したケースもあったと思うが、どういうものがあったか。
A: 体言間を関連語対で対応付けてしまったもの。(ライフプランのアドバイスを行う≠資金計画などの指導・助言を行う)
Q: 同義と含意の割合を見ると同義の割合が低いようだが、そもそも同義と含意を分けられるのか。また含意についてはいろいろ先行研究もあるがそれとの違いは。
A: 体言によっては体言のみで双方向言い換え可能なものももあるが、一方でフレーズになると場合分けが必要なケースもある。
C2-5 印象尺度に基づいた文章言い換え手法 ○吉岡直輝, 松本和幸, 北研二, 任福継 (徳島大)
相手や場面に応じて言葉を選ぶ必要性
先行研究:動詞を変換
動詞に加え名詞を変換候補にすることでより自然な言い換え
同義語辞書+共起辞書+印象辞書
Formal/Casual/分類不能を自動分類
naltoma: 正解文の定義は可能?
naltoma: そもそもカジュアルな文章だといろんな言葉が省略されてたり特有の言い回しがありそうだが、動詞/名詞の変換するだけで「印象」良く伝わるような文になるのか。
naltoma: 単語単位の言い換えで十分? フレーズとか拡張可能?
naltoma: 共起頻度足し合わせでCasual/Formal判定すると、コーパスの質や量に依存して結果が異なりそうだが問題にならないか。
Q: 日本語で尊敬語/謙譲語とかどちらもフォーマルだと思うが、どちらも使い分けられなければいけないと思う。そこは処理している?
A: 今回は考慮していない。うまく組み合わせればできるのでは。
Q: 「正解」というのはどう決めた?
A: 単語毎の正解率で評価した。単語の前後を見て「意味が変わらず、言い換えと判定できたこと」を確認した。人手アンケート調査で正解を判断。
Q: アンケート調査は当てになるのか?信頼できる? 正解の軸を何処に置くか次第だが。自信を持ってカジュアルになってる/フォーマルになってるのかという観点からは気になる。
A: 人の国語能力によって異なると思うが、「学術的な表現/改まった表現/古風な表現」を正解とするように設定した。
Q: 何人で評価?
A: 文は一人。単語は4人。
Q: 4人の一致度は?
A: みていない。
Q: 一致度を出すと先ほどの質問への回答の一つになると思う。
Q: 正解にも2種類あって、意味の変化有無と、フォーマル/カジュアルの2つの側面があると思うが、どっちの方が違いが多かったのか。
A: タグが間違ってるが意味は間違ってるという結果の調査はまだ行っていない。
C2-6 法令文の構造的書き換え ○宇野真人, 島津明 (JAIST)
法令工学:法令の検査検証などなど
一文が長い/文が複雑/特定の用語や構文を仕様/etc.
解析精度と可読性向上が目的
法令文を分割し、複数の要件・効果に書き換える
分割問題:ゼロ代名詞、要件埋め込み文
naltoma: 複雑怪奇だと想像するが、逆に一定の解釈になりやすいように編集された文章なので、ルールベースぐらいで分割しやすいのでは?(妄想)
naltoma: 特定用語については辞書対応するぐらいしか方法が無い?
naltoma: 分割+補正+構成要素タイプ判別する形で「可読性向上」を目指していると思うが、可読性向上のためにタイプ別以外に「情報付加」するアプローチは考えられないか。
Q: 法令文で要件・効果というのはかなりのケースで複数が併記される?
A: そう。定義でも併記がある。
Q: 一般の文に適用して、因果関係にも応用できるかなと思いながら聞いていたが。
A: かなり強い制約なので、一般の文だと当てはまらないケースが多いように思う。
C2-7 Supervised Recognition of Entailment Between Patterns ○Kloetzer, Julien, De Saeger, Stijn, 鳥澤健太郎, 佐野大樹, 後藤淳, 橋本力, 呉鍾勲 (NICT)
QAシステム一休
strong entailment recognizer: 例「パリはどこにありますか」「パリはフランスの首都である」
先行研究:教師あり/教師無し学習
例文を認識できない
提案:Surface features+Distributional similarity+Lexical features
Q: 実験の前提が分からなかった。9500パターンでentailしているものを9500から選ぶ?
A: 選ぶのではなく、その中に半分弱40%ぐらいはentail。それをYES/NOで見つけるタスク。
Q: こういうlexicalな問題はなかなかsuperviseできないだろうと思っている。かなりバイアスがある。語彙のオーバーラップもある。選ぶというタスクだとこんなに良い精度にならないんじゃないかなと。
A: バイアスがかかってるのはその通り。3つの名詞対はシェアされてて、それが選択されやすいというのはその結果。similarはlexicalオーバーラップが高い。otherについてはまだ改善の余地がある。「XのY」に関するとオーバーラップは殆どない。
A: オーバーラップある方は精度高くなりやすいが、それでも高々6割ぐらい。
C2-8 含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識 ○宇高邦弘, 山本和英 (長岡技科大)
テキスト中の一部の表現から含意関係認識可能な場合がある
含意要因となる表現と仮説を抽出(人手)->抽出した対を用いたテキスト含意認識
抽出した対の特徴
頻出した特徴:「の」結合名詞、包含、述語含意
文節対毎に照合
naltoma: オープンテストでどうなる?
naltoma: コーパスの質と量の問題?(十分な質と量がそもそも揃えられる?)それとも手法の問題?
Q: こういう分析は重要だと思うが、実験結果の通り十分ではなかった。汎化の必要性もあるようだが、今後のストーリーは? PASCAL3だったかでは、どういう情報が役立ったかといった情報を公開してるはず。そういうのを参考にすると良いのでは。
Q: 単語クラスタリングで汎化するような話をやっている。Wikipediaを自動生成するとか。でも上位下位関係の方はなかなか使いづらい、性能もなかなかあがらない。元になってるデータが悪いだけかもしれないがまだ良く分からない。良い国と悪い国みたいなのが比較的綺麗に分かれると思うが、こういうのはなかなか上位語では分け難い。こういうアプローチ自体があまりうまくいかないのかもしれない。
Q: 汎化しただけの状態で試すという一番緩いパタンで試し、どの程度の適合率かを見るのか一つのやるべき道だと思う。
Q: かなり真剣に分析したと思うので、今夏の情報を公開されると役立てられると思う。
C2-9 大学入試センター試験を題材とした含意関係認識技術の評価 ○宮尾祐介 (NII), 嶋英樹 (CMU), 金山博 (日本IBM), 三田村照子 (CMU)
NTCIR9 RITE で含意関係認識評価タスク。サブタスクとしてセンター試験が題材。
知識を問う問題:人なら教科書を見れば答えられる(学習して知識を得ている。それをテキスト問題に適用)
記憶していることと問われていることが意味的に一致しているかどうかを認識するタスク
4月に一般公開予定
問題の分類
含意関係以外:語・フレーズや年代を問う問題、非言語、読解問題、根拠が見つからない、、、
NTCIR10 RITE2を企画中: @NTCIR10_RITE
t1を明示的に与えるのではなく、Wikipediaなり情報源参照して適切な箇所を探し出すことが必要なタスク
NTCIR9でのデータは申込時点で使えるように提供する
含意関係タスク以外にも詳しくは金曜午前D4セッションで他の発表も。
naltoma:
Q: ネガティブ、Noになるようなデータはどうやる?
A: 根拠になるようなものがなかなかない。基準としてはまず矛盾するものを探す。なければテキストから探すという2段階。
Q: 正答率が案外悪くないというのは良く分からない。それに関係しているかもしれないが、根拠が見つからないとは?
A: 含意関係認識を判定する時は個別にYES/NOで判定。試験問題の場合はYYNNとなったらconfidenceが最も高いYを出す。ちゃんとは見ていないがそこで救われている可能性がある。
A: 根拠が見つからないというのは、Nの例は適当なものを持ってきて良いが、Yなのにも関わらずそれに相当する根拠が見つからないというパターン。
Q: 誤りになってるt2に対してt1を与えるというのは分かったが、カバーされてないものとして事実でないものを与える必要は無いか。(**解釈誤ってる可能性高いです**)
Q: 同義(両方の概念)と含意のt2->t1というのが一杯混在していて、結構同義が多いと簡単になるが、本当の含意になると難しい。修飾語とかを見ていくとかしていく。
A: 両方の概念というのは殆どなかったように思う。必要な場合は複文で用意しているのでentail関係が多い。