言語処理学会第19回年次大会(NLP2013) 3日目(最終日)終了
NLP2013の本会議3日目が終了しました。これで年次大会が終了です。来年2014年4月には20周年になるらしく、次回の年次大会等で記念イベント的なものを盛り込む予定とのこと。
今日のスケジュールは、一般セッションx2回にポスターセッションx2回。今回は口頭発表とポスター発表の割合がほぼ同等になっていて、並列度が高いです。見たい発表をあれこれ見て回れるし、直接討論しやすいので個人的には良いですが。昨日体調崩していた学生もそれなりに回復できたようで、ポスターセッションにも参加できたらしい。
今日の発表の中で個人的に面白かったのは、RSTチックな依存構造木に基づいて文章間構造を加味して要約を生成する話、入力文そのものと別途用意した教師データを同時学習するオートエンコーダの例、多職種が集まった長期間のミーティングログ分析してみた話、政治家のプロジェクト毎の参画度合い抽出したいという話、動的変化する文章における「差異の小ささ(多くは同じまま)」を利用した問題定式化あたりです。
終了後は学生の興味半分的なリクエストに答えてマウンテンへ。個人的には10年ぶりぐらいで、前回の雪辱を晴らして無事に下山できましたw
以下、自分が聴講した発表に関するメモです。例によって私の理解不足で解釈誤りが多々含まれている可能性がありますので、ご注意ください。
目次
A5:要約, 座長: 西川 仁(NTT)
A5-1 談話構造に基づく単一文書要約 (pp.492-495), ○平尾努, 西野正彬, 安田宜仁, 永田昌明(NTT)
従来:文書は文/節/句といったユニット(have: 長さ,重要度)集合とし、最適化問題に落とし込む。
今回:ユニットの依存木とし、最適化問題に落とし込む。
RSTによる談話木をユニット間依存の談話木(DEP-DT)へ変換するルール
RSTの問題点:依存関係が陽には定義されていないEDUの組み(離れたEDU組み等)がある
要約しやすいように変換:SはNを修飾することに基づき、親兄弟を利用
依存構造木の生成
トリミング(=制約付きナップサック問題)により要約生成:木構造制約の導入
EDUのスコア調整
重いノードが下にいると縦に要約作成してしまう
要約という視点からは幅優先にしたい
naltoma: DEP-DT自体はどう生成する?
naltoma: DEP-DTによる依存構造木そのものの適切さはどのように評価できる?
Q: ラベルを一切使っていないとのことだが、RSTは木構造だがむしろラベルの方が重要だと思う。
依存構造に変換した際にラベルをどう解釈するのか、ラベルは適切に付くのか、
物語と節の関係が本当に正しいのか。元々のテキストが主張していないような
論理的な関係が作られてしまわないか。
A: ラベルについては、依存構造木の末端から一度上がる箇所では確定。
その後の遡りについてはおかしくなる可能性がある。
ラベルについては必要ないのではというスタンス。
Q: 先行研究ではウェイトを使っていないようだが、
提案手法ではウェイトを依存構造利用して調整せずに解いたらどうなるのか。
A: ほぼ一緒になると思うが、サテライトの使い方が違う。
Q: ツリーに変換した際にROUGEのスコアが決まりそうだが、どうなる?
A: 今やっている所。
Q: 変数としてILPの規模は?
A: バイナリ変数が100〜200。そこそこ大きい。
Q: 接続詞とかの制約付けると、問題として面白くなると思う。
Q: 自動的にRSTそのものではなく依存構造を分析するとのことだが、
見込みとしてはどのぐらいの精度?
A: ツリー全体になるとはズレが多いと思うが、
直接的な関係は7割ぐらいいけるんじゃないかと想像。
A5-2 断片数制御を取り入れた組合せ最適化による部分文抽出 (pp.496-499), ○安田宜仁, 西野正彬, 平尾努, 永田昌明(NTT)
抽出による方法 vs 生成による方法
抽出:重要文抽出が愛されている
もっと短い要約を作りたい:「文」単位では大きすぎる(e.g., 検索スニペット)
スニペットにも組み合わせ最適化のパワーを
文より小さい単位(部分文)での抽出+過度な断片化の抑制
部分文(文中の連続した単語列)を抽出したい
バイグラムを概念単位とする最大被覆問題で、制約付き線形計画問題として解く
連続した語の表現:文内の各語について「個々から開始」「ここで終了」のためのニ値変数準備
バイグラムの表現
制約:各文から選択される部分文は高々1個
見方によっては「文抽出+文生成を同時にやってる第3の方法」
問題意識
ROUGEの弱みに付け込んでる?
他の適切な自動評価?
厳密解にこだわる必要性?
naltoma: 最後に述べられてた問題意識には同感。
もう少しインタラクティブにするか、もう少し具体的な要求を加えるとか、
「論理的に解く」レベルに制約加えた方が「欲しい要約」に近づくんじゃないのかなぁ。
Q: 実例で、今回の手法で有り難みが感じられる例があれば。
A: スニペットを想定。眺めてみると、一例として、
良い感じの文から大量に取ってきて、
他からががっと断片的に取りまくるようなのがあり、酷い。
Q: 部分文制約がないと現実的な時間で動かないというのは分かるが、
その制約があると、文圧縮したのを複数個用意して最適化問題として選んでいく
方法で良いのでは?
A: 結果的にそうなっており、仰る通りだと思う。
任意の両端から切った文を用意して、制約ありで解く方がちゃんと解けるならそっちの方が良いと思う。
比較しないと分からないが、スピード面では提案手法が有利かもしれない。
Q: バイグラム与えてしまうと名詞をばりばり取るような印象を受ける。
モダリティを無視してるように思うが、作成される要約は適切か?
A: 大変問題。ただし、目的としてスニペット程度の生成だが、
要約文としての適切さについてはその後の調整次第でどうにでもなると考えている。
A5-3 劣モジュラ最大化アルゴリズムを用いた文抽出と文圧縮に基づくクエリ指向要約 (pp.500-503), ◎森田一, 笹野遼平, 高村大也, 奥村学(東工大)
ユーザの要求により簡潔で素早く応答できるサービスのため、文抽出+文圧縮
同時にやることで不要な部分を除外しつつ、必要な部分を選択できる
複数文の部分木構造から、欲しい部分木をマージして要約生成
整数計画問題は大規模になると解くことが困難
submodular maximizationではグリーディに解くことで近似解を得られる
naltoma: この発表に限った話じゃないけど、
「要約」を作る時は「何のために」とか「誰向けに」みたいな状況設定が
必要な気がするけど、ベンチマーク的に用意されてる問題ではどのような背景で解が
用意されているのだろう。問題次第とは思うけど、アプローチ側にそういう背景が
出て来ないのが気になる。
Q: 比較結果で複数提示されているが。
A: 提案手法、圧縮無し、生成文から長さを無視して元の文を復元した際のrecallを比較。
Q:
A: 選んだ単語に対して減衰させていくため、厳密には整数計画問題として解くことができない。
Q: submodularを導入した動機は速度だと思うが、実際の速度は?
A: 真面目に早くなるようには書いていないが、
2000文でKNPとかを除いて1,2分レベル。
Q: 同時に実行するという話があったが、
網羅的に部分木を用意して選択することでも同時にやってることと同質では?
A: 全てを用意することができるなら同じだが、全て列挙すること自体が困難。
冗長性とかを考慮することで必要なものが変わってくるので、
同時に解く方が望ましいと考えている。
A5-4 トピックを考慮したグラフによる複数文書要約への一考察 (pp.504-507), ◎北島理沙, 小林一郎(お茶大)
複数文書要約(グラフ)+潜在トピックに基づいた文書処理(LDA)
LexRankにトピックの概念を導入:文同士の類似度に、トピック分布類似度を考慮
冗長性を削減するために表層的な情報を用いる:MMR (Maximal Marginal Relevance)
naltoma: ROUGE-1値で小数点第二位〜第三位での改善はどのぐらいの改善に相当?
naltoma: トピック分布類似度を考慮した方が良いとのことだが、
考慮度合いが少し(α=0.1〜0.4)だと逆に下がってしまうのは何が原因?
naltoma: 単位を文ではなくより短い部分文、もしくはもう少し大きい単位で
トピック分布類似度するとどうなる?
Q: トピック分布にLDA使ってるとのことだが、文単位ではどう処理している?
A: θは文書単位で求めた。
文に含まれる単語に対するトピック分布の平均分布として算出。
Q: トピックを使った要約という時、どういう選択肢があり、何故グラフを用いたのか。
A: グラフにすることで文と文の関係を分かりやすく出力できると考えた。
グラフに基づいた要約手法の中でトピックを導入したものがなかったのでトライ。
Q: 直感的にどういう性質の要約ができることを期待している?
A: ユーザによって書き方が違っても、トピックとして広く取ることである程度
まとまった要約ができることを期待している。
Q: 別データも今後使いたいとのことだが。
A: レビューを想定。
Q: DUCは新聞データだが、新聞記事だと語彙的重なりがあって、
同じような単語があると重みが被ってくれる。レビューだと
スパースになる点を検討した方が良いと思う。
A5-5 Webニュース記事本文を利用した見出し文の意味具体化手法 (pp.508-511), ◎芋野美紗子, 吉村枝里子, 土屋誠司, 渡部広一(同志社大)
人間のパートナーとしてのロボット、円滑なコニュニケーション能力の必要性
人間らしい会話:能動性を感じるもの
ロボット側からの話題提供:リソースとしてWebニュースの見出し
見出し文の意味具体化:具体的な情報の追加+自然文への変換
見出し文解析:分割とテーマ解析+動詞の解析+助詞追加+格解析
意味具体化:動詞の追加+When/Whereの追加+Whoの置換
概念ベース:語を「属性(別の語)、重み」の組み集合で機械的に構築
naltoma: 目的にマッチさせるなら素直に本文から重要文抽出する方が良さそうなイメージ。
Q: 作成例の「イスラエル云々」の例は何が問題だった?
A: 「発射実験する」という表現が日本語として不自然じゃないかという人がいた例。
多数決で揺れ動きはあるが、意外と厳しめの評価と感じている。
Q: 見出しから作るなら、本文で補完する方が楽では?
そういう可能性を考慮した上で、提案手法を選択した理由は?
A: 要約する時に見出し文が分かりやすく短くしてくれてるからそれを利用したいという
ところから始まっている。動詞表現については確かに本文から取ってきた方が良いかと思う。
ただし、Who格置換はオリジナル。
Q: 要約だと考えると、圧縮率はどのぐらい?
A: 圧縮率の算出はしていない。
圧縮した情報だと思っているのは本文を圧縮したら良いとは考えている。
Q: 概念ベースは何を使っている?
A: 概念ベースで語を定義することで使える関連度計算を使っている。
Who格置換に利用。
P3: ポスター(3)
P3-4 機械学習を用いた同義語の使い分け (pp.584-587), 強田吉紀, 村田真樹, ◎三浦智, 徳久雅人(鳥取大)
話を聞く前は数え方(一杯を数えるところを一つとも数えることができる)みたいな、どちらでも使える同義語を使い分けるのかと思ってました。実際には「誤った使い方」を使い分けたいという話らしい。基本的にはEDR辞書を使った素性(品詞がメインぽい)を使っているのですが、数十個(50以上?)まとめて使っているようで、どれが一番効いているのかは良く分からず。揃えたデータセットに対しては比較的良好な精度で分類できているようで、適用範囲を広げていきたいとのこと。
P3-5 パターンと機械学習による冗長な文の修正と修正のヒント出力 (pp.588-591), ◎都藤俊輔, 村田真樹, 徳久雅人(鳥取大), 馬青(龍谷大)
「冗長」というのもケースバイケースかなと思うんですが、「論文」ぐらいを想定しているのかしら。今回は、冗長パターンとなりやすい例として「可能」が含まれる文を収集し、人手で修正。修正前後のdiffから修正パターンをあれこれ構築するというのが「パターン」側の話。機械学習では修正前後の文を「パターン毎に分類器を構築して判定」するっぽい。もう少し上手いやり方がありそうだけど、その場では思いつかず。
P3-6 パターンと機械学習を用いた大規模テキストからの変遷情報の抽出と分類 (pp.592-595), ◎堀さな子, 村田真樹, 徳久雅人(鳥取大), 馬青(龍谷大)
個人的にかなり気になっていた発表の一つ。「変遷情報」という言葉から「ある人/モノ/事象に着目した時の年表的なもの」を想像していたのですが、実際には「特定のモノ」は想定していないっぽい。なので、抽出される変遷情報は「いろんな対象物が時の推移と共に何かしら変化するもの全般」になってて、それがあまりにも多種多様で分類を検討するのに苦労しましたという話。変遷する対象も変遷内容も問わないので、特に何かしら絞り込む工夫も必要としてないという意味では楽だったように思いますが、その分収集されるデータの収拾は大変だよね。うまく体系化してから個別に対策練るという方針かなとは思います。
P3-11 オートエンコーダにおける単語ベクトルの学習 (pp.612-615), ◎島岡聖世, 山本風人, 乾健太郎(東北大)
NNで入力と出力を同一にして学習させることで「入力を圧縮(近似)した中間層」を得られるというオートエンコーダについて、入力データとは別に教師データを用意する場合、用意しない場合とでどのような圧縮結果が得られるかを単語ベクトルの例で調査してみたという話。言語モデルなりの教師データをうまく追加してて、特徴ベクトルそのものの近似学習と潜在的な意味(=言語モデル)を同時に学習できるようにしている点がウマい。勿論、そこで与えた教師データに引きずられた近似になるんだろうけど、そこは何かしら引っ張ってやらないと「使いたい特徴を反映しにくい(運任せ)」になっちゃうだろうし。NNの構造&教師データの与え方はもうちょっと工夫できそうな気もします(なんとなく)。
P4: ポスター(4)
P4-3 多職種ミーティングにおける懸念導入表現「気になる/するのは」の多角的分析(pp.658-661), ○高梨克也(JST/京大)
いろんな語彙や知識について共通認識が少ない(=多職種)状況下で何かしら共有ゴールを見出しタスクを解決するに至るまでの、比較的長期&多数回のミーティングが対象で、「気になる/するのは」という言い方が耳に残ったので様々な観点から分析して見ているという話。最終的にはミーティングの支援を想定しているらしいが、今回は分析がメイン。基本的には全参加者がフラットな関係で、一部企業側リーダー的存在の人がまとめる時に「我々が気になるのは」みたいに主体を複数人にして自分らの主張をするために用いていたのが、ある程度互いの共有認識が取れてくると同じような言い回しでも相手のことを気遣った内容(本当にこれで進めて大丈夫?とか)に言及するようになるとか。「気に」でgrep検索するだけでも8割ぐらいの精度で関連箇所を特定できるし、その箇所で論点の推移などが見れて面白そう。
P4-14 情報科学論文からの意味関係抽出に向けたタグ付けスキーマ (pp.702-705), ○建石由佳(NII), 仕田原容(フリー), 宮尾祐介, 相澤彰子(NII)
論文全体(今回はアブスト対象らしいが)を網羅的に全てタグ付けしようという話。アブストで体系化&アノテーションしてみる限りでは割と揺れも少ない体系が作れたらしい。ただ、文間の意味関係は対象外っぽいように見えました。(違うかもしれないけど)
P4-21 何日目日記: 時間経過を揃えたソーシャル日記システムと時間特徴マイニング (pp.729-732), ◎粟飯原俊介, 中谷洸樹, 田中久美子(九大)
何かしら既存のソーシャル・ネットワーク上でのデータから時間経過を意識してデータ収集するという話なのかと思ったら、そういうサービスをあるものとして解析しましょうという話。
P5: ポスター(5)
P5-4 論文作成支援のための学生論文における不適切な表現の分析 (pp.753-756), ◎尾崎遼, 村田真樹, 都藤俊輔, 三浦智, 徳久雅人(鳥取大)
修正前後の文をdiffして学習用データを構築し、修正パターンを5種類ぐらいにカテゴライズして分類学習させようという話。気持ちはとっても良く分かる。
P5-6 『複合動詞レキシコン』ver.1 —形態的・統語的・意味的情報付与— (pp.761-764), ○神崎享子(豊橋技科大)
賑わってて聞けなかったのだけど、ポスターによると公開を予定しているらしい。
P5-10 意味関連辞書構築のための単語間関連度収集手法の検討 (pp.777-780), ◎後藤慎也, 鈴木良生, 田添丈博(鈴鹿高専)
「名詞-形容詞」という連続した単語間の関連度を求めることが目的で、素朴に自動収集すると不適切なデータまで集めてしまうから人手でやりましょうという話らしい。ゲーミフィケーション的に取り組みやすくさせることを想定しているみたいだけど、う、うーん。
P5-12 意味検索結果からのキーワードによる絞り込み効果の評価 (pp.785-787), ○大倉清司, 潮田明(富士通研)
クエリを自然文入力とする検索を想定していて、従来は自然文入力されても単語分割してAND/OR検索+αぐらいとしてるのが多いところ、クエリの意味構造を解析して検索に役立てようという話。ただ、その意味構造部分(中間言語)にどう変換してるかはATLASの内部機能を使っているという話で済ましちゃってて良く分からず。
P5-15 語彙的連鎖を用いた調停要約生成手法の提案 (pp.794-797), ◎朱丹, 渋木英潔, 森辰則(横浜国大)
調停するための要約生成について、これまでだと「その話題には無関係なノイズ」まで含めてしまうことがあったので、4種類の語彙的連鎖(肯定的繋がり、否定的繋がり、トピック的繋がり、特殊表現繋がり(?))を使うことで取り除けないかトライしてみたという話っぽい。ただ、その繋がりをどう見つけて、どう活用しているかという部分は良く分からず(私が理解できなかっただけだとは思う)。
P5-18 Twitterにおける話題語の抽出と周期に基づく分類 (pp.806-809), ◎佐々木謙太朗, 田村一樹, 吉川大弘, 古橋武(名大)
常態的な特性(夜はツイート数が増えるとか)を除外し、指定したタイムウィンドウを範囲とする周期的な話題を分類できるようになっているようにも見えるのだけど、一般的な周期特徴抽出と比較してどうなのかが分からず。提案手法のメリットも主張していたのだけどメリットに聞こえなかったので。
P5-20 他者のコメントの引用を考慮したオピニオンマイニング (pp.814-817), ◎岡山有希, 白井清昭(JAIST)
ブログでは「他者のコメント」を引用した上で意見を主張していることが少なくなく、その引用部分に引きずられて全体のネガポジ判定が失敗することがあるとのこと。そこで、引用部分を判定&削除してから意見部分のみを対象とすることでネガポジ判定を改善しようという話らしい。
P6: ポスター(6)
P6-4 談話レベルの推敲支援のための人手修正基準 (pp.830-833), ○飯田龍, 徳永健伸(東工大)
「談話レベル」とありますが、小論文とか新聞記事とかぐらいの何かしら推敲しながら書かれた文章を想定しているっぽい。人手修正データを集めるために専門家に依頼しても「助詞の修正」とか細かい修正に留まることが少なくなかったので、談話単位に分割して依頼することで「談話単位での入れ替えといった文章構造」についての修正データも用意できたとのこと。その修正データから体系化してみている段階らしい。
P6-11 サポートベクターマシンに基づくHit Miss Networkを用いたインスタンス選択(pp.858-861), ◎小幡智裕, 佐々木稔, 新納浩幸(茨城大)
インスタンスというのは学習用データのことらしい。データ件数が多すぎると学習コストが大きいので、精度を落とさず事例数減らしたいよねというのが動機のようで、何を減らすかをあれこれ試している所らしい。先行研究と比較して良くなっている(うまく精度保ったまま事例を減らせている)のだけど、検証しているデータ数自体が数百件レベルでそもそも減らす必要も無さそうなので、「BigDataとか必要ないんじゃない?」みたいな所で検証して欲しい気もしますw
P6-15 地域政治情報コーパスへの賛否の積極性に関する注釈作業 (pp.874-877), ◎筒井貴士, 我満拓弥, 渋木英潔(横浜国大), 木村泰知(小樽商大), 森辰則(横浜国大)
「ある事例にどのぐらい関わっているかを知りたい」みたいな動機で始めているらしく、最初は単純に「賛否」ぐらいで捉えていたがそれでは不十分で、賛成については「どのぐらい積極的に関わっていたか」まで見れないと政治家毎の比較が十分にはできないとのこと。また、議事録からは9割ぐらいが賛成なので、反対しているものを高精度で検出することも必要とのこと。
P6-16 「CD-毎日新聞データ集」に含まれるデータの特徴について (pp.878-881), ○長谷川守寿(首都大)
P6-17 潜在的意味を考慮した効果的な適合フィードバックへの取り組み (pp.882-885), ◎芹澤翠, 小林一郎(お茶大)
短いクエリでうまく絞り込むために使われる事が多い適合フィードバックよりも高精度化の手法を目指して、潜在的意味(LDA)を考慮した再ランキングしてみたという話っぽい。リランキングの話をあちこちで見かけるけど、インタラクティブに数回繰り返すうちにユーザの目的が変化してくることを想定しているものはないような気がする。暗黙的に固定したままで問題にならないのかなぁ。
P6-22 音声対話およびTwitterにおけるユーザのパーソナリティ自動推定 (pp.900-903), ◎藤倉将平(早大)
文毎にBigFive尺度(外向性/神経症傾向/開放性/調和性/誠実性)について自動分類してパーソナリティを構築したいという話っぽいのだけど、話や討論を聞いている限りではどうやってデータを用意しているのかが分からず。
A6:形態素解析, 座長: 笹野 遼平(東工大)/h2>
A6-1 動的変化する文章を対象とした自然言語解析に適した解析アルゴリズムの考案 (pp.904-907), ◎鈴木潤, 永田昌明(NTT)/h2>
解析法(デコーディング)の話
文章入力->文分割/節分割等
動的なデータ、編集途中の文章:適宜変化するような状況(e.g., リアルタイム文章構成システム)
生テキストからのいくつかの自然言語解析問題の同時解析
整数計画問題で定式化:汎用的な開放の特性をウマく活用したい
時刻t-1から時刻tへは基本的に「挿入/削除」
時刻t-1と時刻tの文章の大部分は同一
各時刻tにおける整数計画問題Ptとして記述
PtとPt-1は最適化変数と制約の大部分が重複:いくつかの変数/制約が追加/削除された問題
一つずつをウマく解きたいのではなく、全体として効率良く解きたい
双対分解に基づく解法の特性が使えるかも?
部分問題に分解して解を得る解法、最適化中の変数の増減に対応可
時刻tになっても続いていると看做す
解きやすい問題を先に解くことで他の計算が楽になる
メッセージパッシング的に「さぼるか否かフラグ」を設定
naltoma: 動的に変化するものの、一部分だけの変化だよねという点をうまく使っているという印象。
タイピングに限らず「機械的に待ちが発生する状況」では割と汎用的に使えそうなアプローチ。
Q: 日本語入力では1文字ずつ変換候補出す時に役立ちそう。
毎回辞書適用してて問題無い。応用面で本当にシビアな話なのか?
A: 同じ問題意識も感じていて、全てが早ければそれで良いかもしれない。
今回は文章単位でやっているが、なるべく局所的な単位で済ませたい。
計算機早くなればなるほど人間の入力には追いつけるので、
実際何に使うかは考えている所。
アルゴリズム的には全部やり直すのは勿体無いというところへの寄与はあると思う。
Q: ミソとしては1ステップで削除とかしてるとさぼれる所が多いところだと思うが、
削除と追加を3ステップとかもう少し増やすとどうか。
さぼれる所が増やせつつ、精度担保できたりとか。
A: この問題自体が若干スパースで、スキップしたらするほど早くなる可能性がある。
数ステップ見るというのはそれが向いている処理がありそう。
A6-2 翻字と言語モデル投影を用いた高精度な単語分割 (pp.908-911), ○萩原正人, 関根聡(楽天)/h2>
複合語と翻字:例、ブラキッシュレッド
人間の場合、英語知識(英語言語モデル)があれば暗黙的に英語に置き換えて正しさで判断
翻字と言い換えを利用
問題点
オフライン手法:言語資源を更新し続ける必要
文字種(片仮名)に依存:中国語に適用不可能
オンライン手法の提案:単語分割と同時に未知語を処理
言語モデル付加:原言語における頻度を利用, f(ブラキッ), f(シュレッド)
言語モデル投影:翻字+対象言語における頻度
Q: ゼロ頻度の問題は?
A: ゼロのまま扱っている。
Q: 既存の所で単語分割できていないものにはあまり効かないのでは?
言語モデル投影については影響が少ないかもしれないが。
A: 投影の方は、翻字モデルの設定、英語言語モデルにも依存している。
そのため、広く拾ってくれることを期待している。
Q: JUMANの方が強かったとのことだが、レキシコンをデフォルト値でも負けるということは、
レキシコン頑張って揃えた方が良いのでは。組み合わせで頑張ろうとする動機は?
A: 実際にはそうだと思う。レキシコンの量が一番効いてくる。
限定的に使ったり、解析していくうちで未知語が多そうな場所があれば解析する
というような部分的な適用を想定している。
Q: 翻字が複数ある場合は?
A: 全部考える。
Q: 学習時に間違ってしまうことは?
A: 学習文に対して正しい翻字が付いていないので、スコアが高いものを正解としている。
そこが間違うと誤った重みを学習してしまう。
A6-3 UniDic2: 拡張性と応用可能性にとんだ電子化辞書 (pp.912-915), ○小木曽智信(国語研), 伝康晴(千葉大)/h2>
使いやすくなったUniDic2の紹介
斉一な単位(短単位)による解析、柔軟な見出し付与が可能、音声研究に利用(アクセント付与可能)等
データの可読性を高める:基本情報と付加情報に分割
UniDic-XML、UniDic-Tools
Q: XMLデータについて、実際に出現したコーパスが一例でも付いてると嬉しいが、どうか。
A: 付いていないが、付加情報として別途用意する形での公開は可能。
Q: 平仮名と漢字のような表記揺れにはどう対応する?
A: 対応可能。
Q: 同じ表記で異なる場合には対応できる?
A: そこまでは対応できない。
Q: 「@」に読みはないのか。
A: 語彙素読みと発音読みを用意している。
補助記号については読みを与えないというスタンスで構築しているため、
ユーザ側で付与して欲しいと考えている。
Q: XMLを自分で書いていくのはエンドユーザでは難しい。
元々人間が書くものでもない。Webサービスなり何か書きやすくするとか、
シェアできるようにするような予定は無いか。
A: できたら素晴らしいと思う。
年度内に辞書データを外に出すことを検討している。
何でも追加してしまうと体系が崩れてしまうこともある。
A6-4 絵本のテキストを対象とした形態素解析 (pp.916-919), ○藤田早苗, 平博順, 小林哲生(NTT)/h2>
なぜ絵本か?
幼児への入力の一つ(読み聞かせ・読書):発達心理学的には重要な入力の一つ
発達心理学的には:幼児の言語発達の研究、教育支援
自然言語処理的には:ひらがな対応等
絵本データベースの構築
多くの子供に読まれている絵本+対象年齢が比較的はっきりしている絵本:合計1200冊
本文は人手入力、改行等そのまま入力
字のない絵本もある
ひらがな75.6%、カタカナ6%、、、
BCCWJ: ひらがな49.2%、漢字30.3%、、、
京大コーパス: 漢字42.8%、ひらがな42.6%、、、
既存の形態素解析器では殆どうまくいかない
KyTeaの再学習を使ってモデル再学習
ひらがなや空白の影響を調査
空白の入れ方はバリエーションに富んでる
口語体/方言用モデル構築も必要
naltoma: 固有名詞追加したのであれば、mecab等でもうまく分割できそう?
-> そうでも無さげっぽい。
Q: 平仮名まじりの形態素解析器をやったことがあり、
タスクとしてはIMEの方が近いかもしれない。
A: ありがとうございます。
Q: 漢字にするとかあったが、文全体をやるのではなく一部平仮名+一部漢字に
すると良くなりそう。「いちごの赤い」みたいなケースで、赤いに引っ掛かるので。
元々のDBの文字の意味を見て、絶対漢字で現れないものを反映させると精度上がるのでは。
トレーニングデータに入れるのも良いとは思うが、BCCWJみながら検討して見ると良いのでは。
A: 検討します。