言語処理学会第18回年次大会(NLP2012) 2日目レポート
自然言語処理学会第18回年次大会(NLP2012)の本会議2日目」に参加してきました。
2日目はセッションが1並列で、与儀さんが発表するので自動的に確定。
ということで2日目に参加したプログラムは次の通りです。
・セッション3: A3: テーマセッション4: Twitterと言語処理2012
・招待講演1: “Active Objects: An Entity-Centric Search Experience”
・招待講演2: 「障害者・高齢者と対話のことば」
・ポスターセッション: P2: ポスター(2)
なお、ポスターセッションは初日同様の賑わいで遠目に見たり話を横耳で聞いたりしたのが殆どなので、変な解釈が多いかもしれません。
以下、その参加メモになります。
naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。
[ 編集情報 ]
[2012-03-21, 13:30] A3-1について、発表者より関連情報について補足頂けたので、追加しました。
<目次>
A3: テーマセッション4: Twitterと言語処理2012
- A3-1 極大部分文字列を使った twitter 言語判定
- A3-2 Twitterを利用した評価極性辞書の自動拡張
- A3-3 行政に関するSNS上のコメントの自動分類
- A3-4 国会議員のツイッター分類とその応用
- A3-5 ソーシャルメディアによる風邪流行の予測
- A3-6 2ツイートを用いた対話モデルの構築
- A3-7 Twitter上で行われる議論構造可視化のための段階的クラスタリングに関する検討
- Twitter社のエンジニアによる講演
招待講演1: Active Objects: An Entity-Centric Search Experience (p.1)
招待講演2: 障害者・高齢者と対話のことば (p.2)
- P2-2 テキストの多様性をとらえる分類指標の体系化の試み(2) (pp.739-742)
- P2-7 何をつぶやいているのか?:マイクロブログの機能的分類の試み (pp.759-762)
- P2-24 意味検索のプロトタイプシステムの構築 (pp.823-826)
- P2-28 料理レシピテキストの構造解析とその応用 (pp.839-842)
- P2-29 小学生のための新聞読解支援に向けた重要語抽出の検討 (pp.843-846)
- P2-33 意味的知識を用いたWhy型質問応答の改善 (pp.859-862)
- P2-34 商品に関する被参照性と類似性に基づくレビュー文書からの競合商品同定手法(pp.863-866)
- P2-36 観光地における行動の自動分析に向けて (pp.871-874)
A3:テーマセッション4 : Twitterと言語処理2012 3月15日(木) 9:00-12:00 603講義室 座長: 鍜治伸裕(東大)
A3-1 極大部分文字列を使った twitter 言語判定 ○中谷秀洋 (サイボウズ・ラボ)
入力テキストの記述言語を推定:多くの手法が3-gramモデル採用(十分長い&低ノイズに対して99%以上の精度)
ツイート判定では90~95%:テキスト長の短さ(3-gramでは僅かな素性のみ)。ノイズの多さ(正書法から外れた表現が頻出)。
先行研究: 3-gramベースでグラフ化した素性で96%(6言語)
素性を増やすには
nを増やせば素性は増える。ただしO(文字列長^2)
全ての部分文字列を考慮した分処分類
極大部分文字列モデル+∞-gramモデル+ノイズ除去(言語問わず出現するもの)+正規化
空でない部分文字列の間に、ある種の「包含関係」(半順序)
極大部分文字列ロジスティック回帰=∞-gramロジスティック回帰
naltoma: 文字数少ないと判定失敗しがちだと思うが、最低文字数としてはどのぐらいないと判定が困難?(言語毎に異なりそうだが)
Q: ラテン語のような難しい例に比べると、日本語判定は結構簡単?
A: ひらがなが固有文字で頻出するので比較的簡単。ただし新聞見出し文字のような短いテキストだと漢字が多くで誤判定されることも。
[ @shuyo さんから頂いた後日談 ]
- 言語判定の最低文字数としては、テストデータ作成時の目安を3語以上の文と設定、それで99%精度を目標&達成しました。2語以下は実際かなり厳しいですw
- モデルは文字単位ですが、「判別に効く素性」としては単語の先頭と末尾がやはり大きいので、目安は単語単位で考えています。まあ一言で単語といっても、ご指摘のとおり言語によって全然長さも違うのですが。
- 例えばベトナム語は5文字以下の単語が優に90%以上を占めます。まあベトナム語のスペースで区切られた単位を「単語」と呼んでいいのか議論し出したら終わらない気もしますがw 一方、ハンガリー語やフィンランド語などは平均単語長が他の言語よりきっと長い気がします。
A3-2 Twitterを利用した評価極性辞書の自動拡張 ○鳥倉広大, 小町守, 松本裕治 (NAIST)
評価極性辞書
単語、コロケーション等のフレーズ:フレーズに対して極性が付与。辞書参照して極性判断。
Twitter特化の評価極性辞書:コロケーションに対する極性/極性を実数値
既存の評価表現辞書をシードとした共起チェック+極性を付与したコロケーションをシードとして再チェック+収束までに3回以上出現したら辞書登録
クリーニング:bot対策(1アカウントからは1回カウント、同一内容IDは削除)
仮定:逆接の接続詞がある場合、主節に主張が含まれる。連投ツイート中で感情が変わることはない。
ベースとなる辞書に基づいた収集で、ポジティブに比べてネガティブが2倍。ネガティブ割合ツイート多し。
係受以外のコロケーションの取り方検討
naltoma: 収集漏れがどのぐらいあった? 収集できた中での誤り(極性誤り、無関係)はどんな特徴があった?
naltoma: 「嫌み」みたいな遠回しな表現で極性が異なる表現を書くようなこともありそうだが、そういうのは数が少ないので問題にならない?
Q: 単語ではなく名詞と述語(?)のコロケーションをとってるようだが、悪い側面として「取れてきたものが判別に使う時に情報が特定過ぎて適用範囲が狭い」こともありそう。どう考えるか。
A: そういう面はある。単語だけで取る場合のメリットは無視できない。そちらのアプローチも検討すべきだと思う。
Q: 同一ツイートじゃなくて連投で見たということだが、5分で判定すると決めた理由は? また、連投の中にも明示的に感情が変わってるという例がなかったか。
A: 連投ツイート中の感情が変わったかように見られるものは無かった。5,10分,,等いくつか試したが、それほど有為な差は見られなかった。
Q: IBMの金山さんも近いと思うので、比較して見ると良いかと。
A3-3 行政に関するSNS上のコメントの自動分類 ○冨永裕太, 難波英嗣, 竹澤寿幸 (広島市立大)
例:ニュージーランド南部地震でのクライストチャーチ市の復興プロジェクト: “Share an Idea”
例:「アジアのリーダー都市ふくおか!プロジェクト」
7カテゴリにSVM分類:Tweetなど短文問題
Web等で配布されてるマニフェスト(手掛かり語)を利用:コメント語句+カテゴリ毎の手掛かり語の有無
複数カテゴリで重複する言葉は手掛かり語として採用しない
問題点
学習データに出現しない単語の存在
手掛かり語とコメント内の語句との一致・不一致
naltoma: 「行政分野に関するSNS」に特化した特徴・特性は?
naltoma: 良くも悪くも手掛かり語とするマニフェストの影響が強すぎない?(他情報源は無い?)
naltoma: ツイートを対象とする場合、「ふくおか!プロジェクト」に関連したツイートであるか否かはどのように判断?
naltoma: 複数カテゴリに跨がるラベル付与ではない?
Q: カテゴリが7つあったが、どのように決めたのか。
A: プロジェクトで集まったコメントも参照したが、福岡市の部局構成も参考にした。
Q: 部局の観点で決めると誰が喜ぶ? カテゴリを作る観点が統一されていないように感じた。誰が分類した時に嬉しいという想定?
A: 今回は行政職員がコメント内から自分の部局に関連するものを効率良く見ることを想定。
Q: 市民の声なので非常にセンシティブだと思う。精度向上を達成したというがまだ7割。各部局に渡すとしても半分程度間違ってるものが来て嬉しいのか。半分近く間違ってる集計データを見せられた市民はどう感じるのか。分析方法や手法を工夫してかなりの精度を追求された方が良いのでは。今やられている単語集合で分類器をやるという方法はちょっと合わないような。使い方、どういう応用を考えているかの問題だとは思う。
A: 環境の部局の人が福祉の話を聞いてもあまり意味が無いので、というような観点で考えていた。
Q: 行政の人もそういう想定/ニーズがあった? 研究者の勝手な思い込み?
A3-4 国会議員のツイッター分類とその応用 ○東宏一, 掛谷英紀 (筑波大)
一般市民が使うことを想定。例えば国政選挙でどの政治家に投票すれば良いか?
投票支援の例:VoteMatch。ただし課題あり:マニフェスト・候補者へのアンケート等が選挙期間情報のみ。同じ党内でも政治信条の違いを考慮していない。
各議員が継続的に発信している情報を元に、統計的な分析により議員特徴を把握したい。
最大エントロピー法による議員の分類+SOMによる議員マップ出力
今回は原発問題を対象に実験
原発問題関連キーワード749個+日本語評価極性辞書
naltoma: トピックとして原発問題を選んだようだが、システムにへの入力は何?
naltoma: 原発問題時の関連語辞書を手動生成しているが、これに依存したバイアスが問題にならないか?
naltoma: 主張が変化することもあるが、そのような推移や変化を捉えることは可能か?
naltoma: 場合によっては、政治が対象なら「何派なのか、どんな人と良くつるんでいるか」といった側面などを重要視することもありそう。様々な視点がありえそうだが、今後どのような視点の導入を想定しているか。
Q: 議員の立場を明らかにするために原発問題を扱って推進/反対という観点から見たようだが、どちらとも言えないという議員が多かった? 深層ではどう思っているというのをあぶり出すという効果はある?
A: そういう効果を期待してる側面はある。どちらとも言えないが多かった点については、2カテゴリに分けたことに問題があると考えている。明確な立場を明確にしない議員が少なくない。反対派の方は特徴が強く出ている。
Q: 手法1ではリンク情報は使っていない?
A: リンクが切れてるものが多かったので今回は使用していない。
Q: 立場を見る場合にはリンクが有効という事例が多いので、そちらも検討して欲しい。もう一つ、教師信号を人手手つくっているが、基本的に教師信号を作るなら人手で作る方が早いというのが結論にもなりがち。
A: その通りだと思う。今回やりたかったのは、人手で作成するとどうしても主観が入ってしまう。そこをどうにか除外したいという気持ちがある。
A3-5 ソーシャルメディアによる風邪流行の予測 ○谷田和章, 荒牧英治, 佐藤一誠, 吉田稔, 中川裕志 (東大)
Twitterから流行を推定・予測したい、予防に繋がる
正解データ:薬局の風邪薬販売量。ただし1,2ヶ月遅延。
ツイートや気象情報から風邪薬販売量推測
ベースライン:単語(e.g., 風邪)からの推測
重回帰による推測(複数単語):どうやって単語を選ぶ?(人手選択の事例が多い)
説明変数とする単語を自動選択:回帰の風邪薬販売量との相関が強くなるように(指数時間)
探索法(貪欲法,ビームサーチ)+選択指標(mRMR,MMR)
naltoma: ツイートをセンサーと看做すと、信憑性、遅延、欠落など様々な要因が絡みそうだが、
Q: 自己回帰もかなり性能良さそう。
A: 訓練期間だけを見ていくと単語加えていくと上がるが、テスト期間ではノイズが入って悪くなることもあった。ノイズ次第だとは思う。
Q: 今回の実験では一つのRだけを比較しているようだが、偶然ということは無いか?
A: 直感的に見ると高い精度を得られていると思える。
Q: 「と、白菜」あたりが出てくるのは何故?
A: 「白菜」は冬にでてくるワード。「と」はノイズなワードだが、単純に除くと良い悪いというものではなさそう(?)。
Q: 薬販売量という非リアルタイムなデータと比べて、どのぐらい早く流行を予測できそうか。また、ユーザからすると「いつ頃はやっている」というのは既知の情報でもある。局所的な所でも予測できる?
A: 販売量は月末公開なのでツイートからの予測ではリアルタイムな分それだけ早く予測できる。局所的なものについてもできると思う。
A3-6 2ツイートを用いた対話モデルの構築 ○東中竜一郎 (NTT), 川前徳章 (NTTコムウェア), 貞光九月, 南泰浩, 目黒豊美, 堂坂浩二, 稲垣博人 (NTT)
リプライ等、大量のツイッターデータから対話モデルを作りたい:例 [Ritter 2010]
対象:in_reply_toで繋がってるもの。
対話モデルな人からすると数十発話が続くことが多いが、ツイッターだと2つイートが多い。Ritterらは3ツイート以上のみ使用。
大きなボリュームを占める2ツイートから対話モデルを構築
無限HMM+クラスタリング(単語分布が似ているツイートを同じ状態に分類)
対話250万ツイートから、食事/スポーツ関連のみを対象
naltoma: 対話モデルは「全体」を説明するのに良さそうだが、癖のようなものに分割してモデル化できるか?(コーパスを分割するしか無い? コーパス自体のバイアス具合を評価?)
Q: 性能を決めるのはクラスタリングだと感じた。パラメータも含めてどういう試行錯誤されたのか。見られた感触や評価もあれば。
A: パラメータは先行研究に従った。上位5千単語。内容語とかに限定せず全単語を対象にしているのが一つのポイントだと思う。そのお陰で顔文字クラスタ等も作れた。評価は難しいが、現時点で見ているのは他のクラスタで現れなかった単語リストを確認している。
A3-7 Twitter上で行われる議論構造可視化のための段階的クラスタリングに関する検討 ○与儀涼子, 當間愛晃, 赤嶺有平, 山田孝治, 遠藤聡志 (琉球大)
Q: ドメインにどれぐらい依存している? 別データにアプライするのが今後の課題のようだが、どれぐらい適用できそうかという見積もりについての感触があれば。
A: 大学内という閉じたデータが対象だが、別ツイートデータとしてTEDも使って見ている。この場合、ネットからの参加人数と現場での参加人数の人数比が効いてきそう。tsudaるツイートの時間遅延も影響が強い。
「Twitterにおける日本語処理について」講演者:藤井慶太(Twitter, Inc. ソフトウェアエンジニア)
アーキテクチャ
バックエンドの国際化:共通テキスト処理ライブラリPenguin
検索のアーキテクチャ
トレンドのアーキテクチャ
ツイートの日本語処理
言語判定
問題点:複数言語まじり、絵文字、Unicodeアルファベット
形態素解析:Gomoku
日本語素性圧縮:ひらがな接頭詞+名詞。動詞+助動詞。動詞+接続助詞。ASCII+数字。
フレーズ抽出
トークン分割+Ngram生成+フィルタアウト(最初・最後が助詞なのはダメ。接頭詞で終わる・接尾語で始まるのはダメ)
一部オープンソース化: https://github.com/twitter/commons
やりたいことはまだまだたくさん
形態素解析の品質向上
日本語:新しい単語の追加
同義語、類義語、翻訳、略語などのサポート
フレーズ・トピックのクラスタリング
Sentiment Analysis
#JoinTheFlock!!
日本語のできるエンジニアを募集中: https://twitter.com/jobs
naltoma: Twitter社視点での「目指してるゴール/ストーリー」はどんなものだろう。
Q: 漢字での言語判定は、Shift-JISに変換してからホゲホゲするのは辞めて欲しい。森鴎外とひらがなが使われるとどうしても検索できない。吉野家のやつとかも。
Q: 「お土産」の例があったが、「広島 お土産」で引っ掛からないとかそういうケースも検討している?
A: 一つのやり方としては「土産」「お土産」を同じと看做してクエリを書き換えるとか。またはインデックス時に変換するとか。可能なアプローチを評価した上でベストな方法を採用したい。
Q: 「2つ言語が混在」について、どういうコミュニティで使われるとかどういう状況で使われるとかあるか。
A: 英語言語に対して母国語コメント付けてツイートするというようなケースが多い。
Q: トレンドについて。TwitterのTrend words更新頻度はどれぐらい? ヘビーユーザは高速更新を望むが、人によっては一日/一週間とかいろいろありそうだが。
A: 時間単位での更新はしていない。昼間だとツイートが多いため更新が早いが、夜ではツイートが少ないので更新が遅い。東京では更新間隔が早いが、地方では遅くなる。2つ目については、リクエストとしては昔からあるので前向きに検討したい。
Q: ユーザのLocation使ってフレーズ抽出しているようだが、Locationの取り方は?
A: 携帯だとGPSからの付加情報。それ以外だとIPアドレスから推定。
Q: 形態素解析した後にNgram生成してフレーズ抽出とのことだが、具体的には?
A: トークンをNgram化して、日本語としておかしいものを省く。
Q: 言語によって処理する必要があると思うが、Twitter社の場合は常にどこかの国のピークがあるという状況に想像するが、どうしている?
A: ピークによってアーキテクチャを変えてるというようなことはしていない。最大ピーク時に耐えられるようにデザインしている。アメリカの昼間が最大ピークでそれに合わせた設計。
Q: 日本のピークが来る度に日本語処理の部分を動的に増やすとかはしていない?
A: 今はやっていない。
Q: 速度優先ということだったが、精度はどのぐらい? またアクセント文字で省略された書き方になってるのも問題だったが、そこら辺はどうか。
A: コンポーネント毎に区別して出してて全体としては良く分からない。日本語については99%。ラテン語は97~98%ぐらいだったと記憶。Unicodeをノーマライズする以外は特殊なことは特にしていなかったかも。
Q: 「踊ってみた」とかをくっ付けることでインデックス小さくしてるということだが、逆に大きくならないか。小さくなってるか。
A: そのままだとインデックスする単語数自体が増えてしまうので、小さくなる。
Q: これから大学との共同研究を進めて行くとのことだが、ツイートのコーパスを公開するとかの予定はあるか。
A: 特に大学向け公開とかは無さそう。外に出すのではなく、大学とかインターンとかで一緒にやるという方向になりそう。
招待講演1 Active Objects: An Entity-Centric Search Experience (p.1) Patrick Pantel 氏(Microsoft Research)
Faceted search
Big opportunity to act as a broker
2) actions in web search
actions vs intents: has some kinds of different [Border, 2002] [Rose and Levinson, 2004]
entity:43%, entity category:14%
contexts, clicks, type of actions, type of entities, entity-switch
3) active objects
4) mining entity types
entity-switch, type of entityの効果あり
TAIL lower than expected: PEOPLE types
naltoma: entityとは?何をどう抽出する?(検索エンジンの「多数の例」では想像できるけど、想像できてないentityは分類可能?どのような特性がある?)
昨日の「名詞って何だ」的な話を聞いたお陰か「entity って何だ」とあれこれ妄想してたので大雑把にしか話を聞いてなかったです。ごめんなさい。
@nokunoさんによると、WWW 2012でのペーパーはActive Objects: Actions for Entity-Centric Search (PDF)らしいです。
招待講演2 障害者・高齢者と対話のことば (p.2) 市川 熹 氏(早稲田大学人間科学学術院教授・応用脳科学研究所員)
災害:障害者の被害の実態調査ができていない
連絡システムと障害者・高齢者間のインタフェース、心のケア:対話言語
対話言語の位置付けと心的負担
合成音性は疲れる/手話CG//
対話言語の解明:それぞれに負担が異なる
緊急事態による負荷増大/処理能力減少
対話言語のメディアやコンテンツ特性を活かした負荷減少?
負担の測り方いろいろ:(略)
メディア特性@対話音声:揮発性(すぐ消え去る)/単語切れ目/何万語/文章構造/円滑話者交代///
声->音韻知覚->文理解->意味
意図->文作成->発活->声
中間部は普段意識しない:このような能力の獲得はどのようになされるのか?
発話者情報
・誰が(個人性)どのような状態(感情・体調等)
・何をいっている(言語情報)いるか。
を総合的に判断することで「心的負担軽減」に繋がっているらしい?
物理的実体(音、光、、)の上で情報伝達:プロソディ
単語あるいはそれ以上の広い範囲に関係した情報。時間変化及び標準的値からの偏差等に現れる。
音声ではリズムや音程差などに現れる。
プロソディの有無と内容理解度:標準80-90%プロソディ情報なし40-50%
対話言語の構造
伝達内容に関する情報:テキスト
伝達プロセスに関する情報:プロトコル+ヘッダー
言語情報+周辺言語情報+非言語情報+予告的な情報(予告情報+セグメント教会予告+係り受け構造予告+etc.)
F0モデルの導入に予告的な情報が含まれているか?(最初の1周期を聞けば予想できる?存在してたとして本当に使っているか?)
多パラメータをGA最適化
単語教会:「とうきょうのおみやげ」->「ななななななななな」: ○
文構造:文章を「音声ありvs文字だけみせる」:多くの場合○
先行部分で構造推定:条件によるがF0先行部分で80%
円滑話者交代:重複発話注目(日本語英語共に40%前半台。手話でも発生):存在69%。(使ってるかは分からない)
対話言語と障害者支援
手話・指点字のプロソディ対比
手話@自然言語:手指無し/顔無し/自然なリズム/一定リズム。
ろう者は殆ど手を見てなくて顔に注目。15%程度を見て理解
発話は予告を検知し、TRP拘束を受ける
留学生はプロソディ表現が苦手。TRP無視して重複頻度が高い。
認知言語学
第1期:記号処理モデル
第2期:分散処理モデル
第3期:アフォーダンスモデル/ミラーニューロンモデル
類似パターンが強く引き寄せられる仕掛けの存在?
Web検索は対話だが、下記条件が成立しているか?(負担になっていないか?)
言語行為論の適切性条件
協調の原則
対話の共同活動
発達障害支援研究会(電子情報通信学会HCGグループ)
言語獲得・発達障害と対話言語
身体リズム・相互作用 -> プロソディ -> 心的普段軽減/他者存在 -> 社会的存在
「対話言語」として横断的に見ることで見えてくる特性
著書:「対話のことばの科学」(とても面白かったのでポチリました!)
(naltoma: 生命らしさはこういう物理的な現象を通した所で初めて組織化されるのかなとかもやもや妄想したり。)
Q: 留学生がTRP美味く掴まえられないという話があったが、留学して第2言語を学ぶ際にプロソディが重要ということか。
A: 言語学者にいろいろ聞いて見ているがあまりはっきりとはしていない。
Q: 予測という点ではどういうゴールを予測しているかといったことも重要になるんじゃないかと思うが、融合か何か考えられるか。
A: どういう話をしているかという共通基盤が無いと対話が成立しないと思う。セグメンテーションに限定するならそれほど難しくない。男性名詞女性名詞とかいろいろある言語についても明確な回答が貰えないが、細かく区切ることで予測しやすくなるという側面があるんじゃないか。
Q: 予測は言語によって有利不利が大きく異なりそう。先頭の一語を見れば英語ならすぐ分かるが、フランス語/中国語等「最後に付け加える言語」では最後まで聞かないと分からない。日本語だと相手の様子見ながら良さそうなら「です」と言うとかそういうこともできる。
A: そういう疑問は持っている。ただし文法構造が全く違うのに似ている側面もある。文脈や「しかしながら」で切り替えるとかいろいろありえるが、それを否定しているわけではない。今回は物理層にも何かあるんじゃないかというところについての話。問題提起。
Q: 高齢者に対して「ゆっくりはっきり」とかいう指示をされることが多いが、ピッチ幅を広くした方が良い?
A: スピーチストレッチャを使った事があるが、新しい文化/タレント/ニュースとかを知らないことを「耳が遠い」と解釈してしまうこともあって要因が様々。全体的に見ていく必要があると思う。
Q: システムと人間との対話を見ていて、予測が聞くか否かでプロセスが大きく異なる。システムから把握できる情報だけでも「この人は何か困っていて支援が必要」とか見えてきている。そういう情報を利用できないかなと思いながら調査している段階。
A: 発達障害にもバリエーションが様々なので、問題の切り分けが必要。今回の枠組みでもカバーしきれていない可能性もある。一人一人の障害の性格で、どういう教育していった方が良いかを判断していく必要がある。パターンも必要だが、両方のバランスが重要だと思う。
Q: 災害時における情報収集とかやってるが、障害者に対する情報提供が全く分からない。最後にあった話で長期にわたる方向性を示してもらえたが、短期的な方向性があれば。
A: それを探りたいということもあってやっている。今回の震災の場合には津波ということもあってネットワークインフラ自体が切れてしまった。携帯電話でも太陽電池なりで電力供給できるとかも必要。最小限必要な情報をスパッと伝えていくとか。沢山の情報を提供すれば豊富に解釈できるという考え方もあるが、そうではなくて「如何に情報を切り捨てていくか」が第一義。マジックナンバー7とかいう言葉もあるが、緊急時には3つぐらいかもしれない。処理可能なことだけと取り上げて判断を誤ってしまうこともあり得る。
P2: ポスター(2)
P2-2 テキストの多様性をとらえる分類指標の体系化の試み(2) (pp.739-742) ○小磯花絵 (国語研), 田中弥生 (神奈川大), 小木曽智信, 近藤明日子 (国語研)
書き言葉の多様性を体系的に評価したいという話で、今回は「スタイル/抑揚・リズム/明晰性」として抽出できた因子毎に評定尺度を定義し、サンプル数増やした検証をしてみたという話らしい。
「多様性」にこれ以外の軸はあまり必要無いという話なのか、手間の都合上top3に絞ってるのかな。
P2-7 何をつぶやいているのか?:マイクロブログの機能的分類の試み (pp.759-762) ○菊井玄一郎 (岡山県立大)
今回は自動分類するという話ではなく、分類するための指標として分類体系をデザインしてみたという話らしい。
予稿にもいろんな分類が示されてるのでそれ含めて参考になりそう。
P2-24 意味検索のプロトタイプシステムの構築 (pp.823-826) ○大倉清司, 潮田明 (富士通研)
自然文による入力を「意味最小単位グラフ」に自動変換し、文単位でグラフマッチングを行う類似度計算を行うことで「意味」を捉えた検索をできるようにしたという話。
意味グラフとしてデザインしてる質や量が気になる。
省略されたデモも用意されてたけどどのぐらいの情報源に対してどのぐらいの速度で検索できるんだろう。
P2-28 料理レシピテキストの構造解析とその応用 (pp.839-842) ○苅米志帆乃, 藤井敦 (東工大)
料理レシピからフローチャートを自動生成するために、動作セット単位に分割+ブロック作成しながら適宜補正するという話。
基本的には自然言語を直接処理してるので、ストーリーのおかしさとか校正目的にも使えたりするんだろうか。
P2-29 小学生のための新聞読解支援に向けた重要語抽出の検討 (pp.843-846) ○小林健, 久保恵津子, 安藤一秋 (香川大)
小学生にとっての難しさをアンケート調査(?)して分析しつつ、「よみうり博士のアイデアノート」を教師信号と看做して「解説が加えられる用語」について分析し、それらの結果について双方から擦り合わせていこうという話らしい。
難しさのケース分けとかしてある点が参考になりそう。
P2-33 意味的知識を用いたWhy型質問応答の改善 (pp.859-862) ○呉鍾勲, 鳥澤健太郎, 橋本力, 川田拓也, De Saeger, Stijn, 風間淳一 (NICT)
もともとの精度がまだ低い(P@1で0.3前後)ようだけど、向上するアプローチとして「ネガティブな事象の原因もネガティブであることが多い」という極性情報と、それだけでは条件が緩すぎるので言語表現を加味して学習させることで改善できたという話。
単に極性情報を使うというだけではうまくいかないのね。
P2-34 商品に関する被参照性と類似性に基づくレビュー文書からの競合商品同定手法(pp.863-866) ○石橋直己, 乾孝司, 山本幹雄 (筑波大)
そもそも「商品」をどうやって定義するんだろうとか変な疑問を思ったりしましたが、そういうのが自明(レビュー文書があるぐらいだし)という前提で競合商品同定するための良い素性や類似度計算を作りたいという話っぽい。
TFをちょっと工夫した、「商品Xのレビュー文書に現れる商品名の回数(参照回数)を求めることで、商品Xに対する各商品の競合商品らしさを見積もることができると考えられる」という仮定に基づいた「TF補正」が比較的良かったらしい。
逆にこういうレビュー文書がそこそこ揃ってるなら割と抽出しやすい問題にも感じたのだけど、何が問題だったんだろう。(ベースラインとして比較もしてるようだったけど、何故抽出できないのかがピンと来なかった)
P2-36 観光地における行動の自動分析に向けて (pp.871-874) ○山本拓未, 徳久雅人, 村田真樹, 村上仁一 (鳥取大)
「体験文」を抽出できるように機械学習して、さらにクラスタリングして「分析」しやすくしましょうという話。
体験文抽出の方は「体験表現抽出ルール」を手動で構築したっぽい。