Archive for the ‘研究’ Category

「複雑系科学と応用哲学」沖縄研究会第1回大会, day2

火曜日, 8月 30th, 2011

「複雑系科学と応用哲学」沖縄研究会第1回大会、2日目のメモです。

初日もそうでしたが、二日目は初日以上に討論を通しての互いの意識・問題点・アプローチの妥当性といった様々な観点における擦り合わせを中心として進み、結果的には発表者自身も様々な視点を得られているという形になっていました。異分野の専門家同士が本気で討論し合うと、全国大会やシンポジウム、研究会とも違った面白さがありますね。

複雑系科学と哲学の親和性の高さというか、似たような所で困ってるという印象を強く持った一日でした。
また、複雑系工学との違いというか「構成的アプローチ→実環境へのアナロジー」を強烈に問い続けている点は、なるほどという印象。工学的には「実際にそういうモデルで動いているかどうかはおいといて、とにかく効率良く動けば良い」みたいなところもあるし。


目次


「心の哲学とロボット工学の出会い~ロボットの持ち得る意図的主体性は人の心的表象の理解にどのように迫れるか」 , 金野武司(JAIST)

共同注意という現象の理解に構成的アプローチで迫る
共同研究
 認知ロボティクスの哲学
 意図的主体性のロボット的構築に向けて

研究の興味
 人の人らしさはどんなところにあるのか?
  意図を推論し合うスタイル
  シンボル操作による創造性の発揮
 非言語コミュニケーション
  共同注意における心的理解の発達過程(乳幼児)
 言語コミュニケーション
  記号によるコミュニケーションシステムの形成過程

複雑系としての問い
 社会の規範が先か、個人の能力獲得が先か(にわとりたまご問題)

  必ずしも因果に分けて議論できない現象
  因あって果があり、それがまた因へ影響を及ぼす。その繰り返しでルールも変化していく。
  こういうループ構造を持つものとして捉えるのが複雑系の見方。
   進化発達過程
    汎用的な学習モジュールが最初から備わっているのか。
    規範(制度)を生み出すための特化した能力があるのか。
    学習モジュール+規範生成能力の両方が無いといけないのか。
     人間以外には規範を生み出せない?
      八の字ダンス:inertに持ってるif-thenルールに過ぎない?

inert問題/学習vs発達
 言語を獲得する能力はinert。日本語を獲得するのは学習。
 通常の然るべき環境におかれて自然と獲得するものはinert、とするのが良いのでは。
  ある状況化ではこうなる、という能力そのものをinertと呼ぶのは良いが、
  状況まで含めてinertというのは行き過ぎでは。
   体内外では分けられない?→困難
    線引き問題なので今回はここまで。
 基盤としてのコミュニケーション能力=inert。

乳幼児の発達過程
 反射的な行動をする状態から、気がつけば意図を理解した状態に→社会参加
 社会に適応する能力の発達は相互補完でロバスト

コミュニケーションで大事なことは?
 書籍「自閉症の謎を解き明かす」1991, p.209
  食卓で「お箸取れる」「取れるよ(取らない)」
  電話で「誰々いますか?」「います(呼んで来ない)」
 他者の意図を理解する
  その人が何をしたいのか、何をして欲しいのか。
  自閉症者だと、言語的な学習はできるが、意図は学習できない?
   特殊パターン(意図を理解するのではなくif-thenで覚える)を多数学習する。
   どのパターンに当てはまるか曖昧な状況ではパニックに陥ることも。

他者の意図を読む?
 G. Gergely, et.al., Rational imitation in preverbal infants, Nature, 415(6873):755, 2002.
  意図を理解してるか否かで説明しやすい実験。
  14歳児頃からそういうことを理解していると解釈できるような反応。
   模倣してるだけ?
    模倣してるだけだとしたら何を模倣している?
 N. Meltzoffらの実験(1995) ボルトとナットの実験
  どのような状況下で意図を推論しようとする能力を発動させるか。
  ロボットでも視線のやり取りをすると発動することが多くなる。
   ザクのような顔では顔と認識しない?
   数ヶ月ではおぼろげで視線には反応できない(顔の向き等)。
   12ヶ月頃から視線に。
 意図性の判定はもの凄くグレー。
 意図に気づき始めると何にでも意図を考えたくなるのか
 何故何故坊や
  女子:ターンテイク自体を目的としがち
  男子:何故なのかを知ることを目的としがち

視線のやりとりについての発達
 共同注意
  親の視線方向に目を向ける行動(6ヶ月頃〜)
  他者の意図を理解(14ヶ月頃〜)
  他者と意図を共有する(24ヶ月頃〜)
  「自分がそのオブジェクトに注目していることを、
   親が分かっている
   ことを自分は知っている」
   that節としては(遅延して)言語獲得できるが、構造としての入れ子構造にはならない(?)
  Tomasello 195, Dennett 1987, 金沢1999

心的理解の発達をどう解明するか?
 3つの過程
  1. 反射的な行動から意図的な行動への発達
  2. 他者の意図を理解する段階への発達
  3. 他者に意図を伝え、意図を共有する段階への発達
 Tomasello, 心の理論, 発達心理学, 信念
 誤信念課題までは考えていない
 心の理論課題
  欧米では3~4歳からじゃないと無理(と言われているのを良く聞く)
  日本では4~5歳からじゃないと無理(と言われているのを良く聞く)
   論文としてはまとまってない
   言語の問題?文化の問題?実験設計の問題?
    日本語がシステマティックじゃない分、文脈依存度が高く、
    心の理論問題のようなシンプルな課題に落とし込めない?
     だからこそ他者の意図理解が大切では?

Tomasello, 2000(書籍)
 意図的な主体になる
  意図に身を任せた行動/メタ認知/反射的な行為

反射的な行動を生成するシステムの用意
 周辺刺激への敏感性, Atkinson et al., 1992
 反射的な共同注意(共同注視), Hood et al, 1998; 板倉, 2005
 視覚定位の運動モジュール+学習モジュール, Nagai, 2003; Triesch et al, 2006
  モジュールを並列化することでも反射的に行動する点は変わらないという立場
 意図的な共同注意
  学習モジュールで必要なこと
   親が見た対象を思い浮かべ、その想起対象があるだろう方向に視界を向ける
 →8名被験者での予備実験では差が見られず
 見ようとしていると感じさせた行動
  反射的なロボット:ボールとは違うところを見たらそっちを見たとき
   =反射的な行動
  意図的なロボット:「自分が適当なところを見ていたら、ロボットがボールを見ていた」とき
   =意図的な行動
  →意図を感じさせた状況に違いがある


討論2「心へのアプローチ:複雑系科学と応用哲学の方法論的差異」

キャンセル


「ポテンシャルモデルを用いた均衡表現による囲碁の解法」, 大島真(琉球大学大学院 理工学研究科 総合知能工学専攻)

山田研究室紹介
 複雑系xモジュールロボット
 複雑系xボードゲーム
  局面=配置そのもの。not情勢。
   およそ10^360乗
  固有ルールが存在し、ルールが特有の構造を作る。

囲碁の概要
囲碁の研究
 「競合共進化アルゴリズム」を利用した「詰め碁」の解獲得
  競合共進化:敵対関係にある種間で共に進化
  共生共進化:助け合いながら進化
 「モンテカルロ碁」に対する「ポテンシャルモデル」の適用

共進化
 種として分けられるのか/分けることの意味
  今回は先手後手でコーディングが異なる
   大雑把には同一ルールだが分けないとうまくいかない?
   バリエーションの問題なら島GAとか別解決がありそう。
    先手後手を分けないとコーディング/適応度関数が設計上複雑になり過ぎそう。
    詰め碁なので対戦よりはパズルに近く、役割が固定されているとした方が楽。
     対戦のような局面が偏っていない状況化では先手後手を混ぜた設計が必要では。
 適応度の設計
  呼吸点 liberties を主体とした設計

囲碁の問題点
 適応度関数の設計が分からない
  いつどのタイミングでどこにおくべきか
  勝敗に至るプロセス
 将棋やチェスだと駒毎に点数付けたり、動ける範囲を考慮することで点数化しやすい傾向。
 全体を見る大局観が必須。

ポテンシャルモデル
 黒白を対極ポテンシャルとみなす。
 ポテンシャルエネルギーの均衡状態を指標に探索空間を一部に限定することで計算コスト削減。
 領域を制限したモンテカルロ碁=ゲーム探索木+数値的特徴

ポテンシャルの決め方
 石のある場所を最大値とし、1マス離れる毎に半分。
  正当性は実験で検証。
  一般モンテカルロでの全領域対象した勝率の偏りで評価?
  でもポテンシャル場は勝率を表す訳ではないのでは?
   モンテカルロ碁の計算コスト削減は分かるが、大局観に繋がる?
    単峰性よりも多峰性の方が良いよねというヒューリスティックのように繋がると面白そう。
 枝狩り方法
  陽領域/陰領域/なだらか領域/勾配領域
  勾配領域が最も枝狩りできた(16手目ぐらいまで)
   何故序盤で勾配領域を選ぶと良くなるのか?
  陽領域はすぐ下降。
  領域のコンビネーションは?
   勾配領域をベースに手探りで組み合わせると、多少改善。
 モンテカルロ碁自体が正解を出すものではない
 棋符で確認してみるとか

ポテンシャル場と呼ぶ必要性
 場ではあるがポテンシャルにはなっていないような。
 勾配を利用して進む訳でもない。


「心の観測装置としての身体表現―マインド・リードをめぐる実験哲学の試み―」 , 長滝祥司(中京大学)

心の研究
 脳科学者らの蓄積してきた経験的データ
 脳の状態と心的状態との対応関係を解明するやり方
 哲学者の言う「説明ギャップ」
  マッピングできたからといって実際にそのように生じているとは言えないのでは。
 (1) 心的状態にアクセスする二つの方法。
  一人称の方法と準二人称(準三人称)
   観察者が被験者の行為を見て心の状態を推測できるかどうか。
   一人称(内観)を信頼する程度には準三人称も信頼して使うのでは?
   表情や身体動作を見て記述された内容はどのぐらい信頼性があるのか?
    一人称と準三人称の報告を比較した時に、準三人称でも良いとされた時の嬉しいことは?
     手段が内観だけでなくなるので、ツールが増える。
 (2) 素朴心理学を巡る論争とそれに関連する現象学の議論を検討。
 (3) 心的状態にアクセスする準二人称の方法の検討。
 (4) 身体表現の理解や記述の程度や情報量・信頼性について実験的検証を踏まえた検討。
 (5) 身体表現や表情の記述の適用可能性についての考察。

心の科学の難しさ
 脳内の計測は技術的に精度が向上していく。
 脳内状態と心的状態との対応関係については困難。 
 観測者間の違い/共通了解
  言語表現/類似した記述の仕方
  数量化する装置では「観測者間の違い/曖昧な状態/読めない状態」を扱いづらい。

観察者の訓練
 神経現象学(Valera, F., Thompson, E.)
  被験者を訓練することで主観的報告の信頼性をあげるという方法。
 共感能力
  重要だが、心的状態のあらゆる次元で等しく信頼できる情報を与えてくれる訳ではない。
  この能力の及ばない心的状態もある。
  →第二の方法で得られた情報が、客観的データとしてどの程度信頼性を持ちうるか

素朴心理学を巡る論争
 理論説
  「素朴心理学は一つの理論(心の理論)である」と主張する立場。
  機能主義。因果を説明。
 シミュレーション説
  素朴心理学は他人に対するシミュレーションの実践だと主張する立場。
  「他人と自分は類似した存在者である」という前提からはじめる。
  オフラインで自分の反応を使う。
   シンパシーを使う。エンパシーではない。
   他人の気持ちを慮る訳ではなく、自分がその人になっちゃう。
   感染:もらい泣き。
    シミュレーションか?
 どちらも心的概念は必要。ハイブリッドもある。
 状況により使い分ける人もいれば、両方とも使わない人も。
 ギャラガー「内的装置も推論も使わずに目で知覚するように相手の心的状態が理解できる」

現象学の提案
 メルロ=ボンティの言葉
 →顔に限定せずに身体に拡張しても良い
  心的状態を表現する時にしばしば身体全体を使う。
  心は身体表現において可視化されている。

他人の心を理解する能力
 生得的と呼べる部分/社会関係の中で獲得される部分
 他人理解に失敗する理由
  身体動作や表情に本質的に現れない領域がある程度存在する
  理解する能力が不足している
  →能力養成で客観的な記述を。

作業療法士を対象とした実験
 職人芸的な趣が強い。
  第三者に伝えるのが困難
 理解したと思っても独断的な解釈の可能性として批判されることも。
  患者の意図や欲求をより正確に把握するには言語的なコミュニケーションが最適。
  身体動作や表情からは不正確な情報しか得られないとする傾向。
   暗黙知の言語化。
 一般的には適切な治療方針とのマッチングには半年以上かかる。
  「何でその作業をさせるのか」
  暗黙知と治療方法とは必ずしも直接的には繋がらない。
  心的状態理解に対する暗黙知技能が療法士のスキルに直結する?
   的確な治療を選ぶ根拠として使えるものと、使えないもの
   医者は物理的な身体しか見ない?
 再現可能な記述の構築、ターミノロジーの構築

実験
 怒りの表出傾向:Anger-Out, Anger-In
 コースター制作作業で判断
  正答数には有為さが見られなかったが、年齢や経験年数との相関は見られた。
  身体表現や表情だけでなくインタラクションの仕方に着目。

分類/ターミノロジー/体系化
言語/記号/定量的表現

「複雑系科学と応用哲学」沖縄研究会第1回大会, day1

月曜日, 8月 29th, 2011

ちょっと変わった組み合わせですが、「複雑系科学と応用哲学」沖縄研究会第1回大会に参加してのメモです。
備忘録としてのメモですが、あくまでも私個人の解釈なので事実誤認も含まれるかもしれません。

なお、発表中にいつでも質疑をする形式だったこともあり、発表タイトルと中身は必ずしも一致してないです。

初日の感想としては、

  1. 倫理が形成される要因を、コミュニティへの参加(コミュニケーション可能)という観点から考えるとリソース制約ぐらいしか必須条件じゃないっぽいように感じた。(発表者の主張としては「他者危害の原則」だったけど)
  2. そもそも倫理って必須条件なのかが疑問。コミュニティへの参加の仕方も多様化してるし。
  3. 自閉症者を異世界に存在する者として捉える見方は新鮮。心の理論を持ってないということでばっさり切り捨てる人もいるんだというのも新鮮。
  4. 「考える対象が分野問わず」という共通点があるというのは面白い。実際いろんな話題について共通理解得られている部分も少なくなかったように感じた。

といったところです。


目次


趣旨説明, 吉満昭宏(琉球大学)・柴田正良(金沢大学)

分野:(応用)哲学+(複雑系)科学
所属:大学院大学(JAIST)+大学+高専

哲学→応用哲学
 哲学自体幅広い学問だが、元々はもの作りを通して追求する側面があった。
 そこに立ち戻ろうと思ったら「応用哲学」という名称で呼ばれるようになった。
 交流を切っ掛けに創発へ。

参加者一同自己紹介


『自閉症の倫理学』を巡る2~3の事柄, 柴田正良(金沢大学)

書籍: The Ethics of Autism
書籍: 治療を越えて バイオテクノロジーと幸福の追求


考えてみたいこと
 物理主義的世界において、いかなる倫理が可能か?
 物理主義的世界:ここでは一切の心的・文化的存在が物理的・化学的・
  生物的存在によって決定される世界のこと。恐らく証明はできない
  が、結果的に相関が得ざるを得ない証拠は多くある。妖精とか天使
  とか奇跡なんてものは無い。決定論的かどうかについては議論の
  余地が多々ある。
 人間は、物理主義的世界において何か作用したがる存在。

倫理がいかなる状況で発生するか?
 仮にあらゆる意味で孤独で問題無く暮らせる人がいたとき、
 その人にとって倫理は生まれるか?
 (という仮状況の設定はどうなんだろう)

共同体テーゼ
 【前提条件】少なくともある期間、各メンバが他メンバと「同等の
 権利と義務」を持つことができる
 →共同体に属する行為者に倫理が発生する。

歴史上の倫理的共同体
 前述のテーゼから線引きをせざるを得ないというのが自然な発想。
  (共同体に入るか否かという線引きのこと?)
 近年の共同体:黒人・女性・障害者等への権利拡大
 人類社会はとりあえず完全義務対象者から成る倫理的共同体。
 不完全義務対象者として動物(ペット)を含みつつある。
 →仮に安全に精神安定/高揚を調整できる薬が開発されたら?
 →記憶消去できるようになったら?
 →サイボーグやロボットはどうなるか?
  →倫理の前提に「同程度の心身能力」がある?

 人格の定義/コミュニティ一員としての定義

 現時点で科学的に判定できないだけで、ペット/ロボット等も持ってる可能性。
 →倫理は人間から見ると人間主体で作らざるを得ない

 倫理が未だに科学的に構築できないのは、
 ある意味で物質主義的世界でないことの証明である可能性。

例えばアシモフ: これは倫理ではない
 自律性が与えられてない状況で倫理は無い

人類の倫理学的共同体の自然的基盤
 (1)人間の傷つきやすさ
 (2)おおよその平等
 (3)かぎられた利他主義:人間は悪魔でも天使でもない
 (4)限られた資源
 (5)限られた理解力と意思の強さ

自閉症の倫理学: The Ethics of Autism
 1. 自閉症者は非自閉症者とまったく異なる世界に住む
 2. 成人の自閉症者は「治療される」必要が無い。望めば別。

キーコンセプトとしての心の理論(Theory of Mind)
 自閉症の原因を説明する3つの理論
  1. 心の理論説: 他人の気持ちがわからんというのを説明
  2. 中心性統合弱化説: 全体を見ずに細部への強い拘りから説明
  3. 実行機能弱化説: 同じ動作を繰り返しやるケースを説明
  →決定的な説明にはなっていない
   自閉症自体が特定理由から生じるものではない可能性
   バーンバウムは理由からではなく行動から説明

 ケース:オキシトシン
  治療に有効であるケースが少なくないが、
  何故有効なのかは分かっていない。

心の理論を欠くとはどういうことか?
自閉症者は道徳的共同体のメンバーか?
 共同体の外側に位置する/態度次第では属さないと論ずる人もいる。

自閉症者には自分が運用できる道徳理論がない
異世界の存在者との共生の倫理
 自閉症者の完全性
 他者危害の原則


討論1「複雑系科学と応用哲学の基礎概念の適合性について」

エンハンスメントの是非
良くあるテーマ例:ドーピングの是非
 遺伝子:工学的/ブリーディング
 自然さ==その時々の直感?

心の理論
 有名な実験:誤信念課題
  子供に人形劇(二つある箱のいずれかにおもちゃを入れて、
  部屋から出かける。おもちゃはどこにあるか)を見せる実験。
  4歳未満の健常児はまず間違う。自閉症児だと12未満でも成功率80%未満。
  (悪魔/天使な私とか内面に複数の自分は居ない?)
 別実験:異欲求課題
  信念よりは理解しやすい欲求を対象とした課題
 ファーストオーダ/セカンドオーダ
  ファーストだと自分だけの問題
  倫理ではセカンドオーダの確認は困難?
  オーダが上がることは気にする必要が無いのか
   e.g., 自分がそれをされたくない→他者に迷惑をかけない
   裁判官のようなケースではオーダの高い能力が必要だと思うが、
   「倫理的に振る舞う」だとセカンドオーダで十分では。
    別例:「罰する」→「何もしないと罰する」で協力が生まれる例
     TFTだけじゃなく別要素を導入した実験。

ドーピングの是非
 ルールを変えても同じ状況は現れる

共生の倫理
 他者危害の原則
  他者の自由を侵さない
  これに抵触しない別原則は多数考えられ、どれを選ぶかの原則は分からない

道徳的行動のレベル/差異
 コンベンショナルな道徳:自閉症者でも割と分かる
 モラル的な道徳

(リソース制約無視の話に聞こえていたのだけど、討論意図はどこにあるのだろう)


ミクロマクロ・ループ・アプローチにおけるルールと戦略のOpen-ended dynamics――学習、進化、そして内部ダイナミクスの役割, 佐藤尚(沖縄高専)

「複雑系」科学の方法論
構成的手法によるアプローチ
 多数の要素が相互作用する環境→創発
  相互作用の結果生み出された機能や構造が作り手にも影響を及ぼすことを含めた包括的な概念
  →影響がダイナミックに作用し合う
   バサッと切り取って見ることができない
   要素に分解すると本質が失われる「複雑系」
 1. 理解したい対象の「元となるシステム」を構成する(作る)
 2. それ(ら)を用いて計算機で実験する(動かす)
 3. これらのことを通して対象の理解を試みる

シミュレーション
 100%再現することは考えない
 重要な要素(現象の核)が何なのかを考え、そのことを検証する
 モデル化
  モデル化の方法は直感/サーベイ/組み合わせ/etc.で仮説構築
 実験で検証
  単なる現象の模倣ではなく、
  現象の裏にある本質的な論理を理解することを目指す。
  本当にそれが重要な要素なのかどうかは実験以外の主張はできない。

シミュレーションの同定手順
 1. 対象の観察→内部構造を推定
  例:制度。not法律。集団内で共通した様式。
   →元システム=その制度を作った人間
    内部構造=人間の内部構造(ルールを作りだす際に必要な機能は?)
  経験や学習を通して価値観等が変化
  内部ダイナミクス
   内部の状態が外部要因からの影響を受けずに内部状態が変化する

  比較対象間で同質のものを探そうとするだけでなく、
  俯瞰的に見て「生成されるものの影響」も加味したり、
  考慮してなかった第三の要素なども考慮するような幅広い視野が重要。

  説明力
   相補的な立場。
   例:言語学→言語の成り立ち
    チョムスキーの生成文法→実験的に例示や反証
   予測としての側面
    古典物理学レベルの予測は無理(具体的なレベルでの予測は困難)
    定性的な予測は可能なものもある(抽象的なレベルでの予測は可能)

 2. 特徴抽出
 3. 構成モデルの作成
 4. シミュレーション
 5. 結果の評価
 6. 対象と構成モデルとの比較・検討

アナロジー

対象を問わない(限定しない)という点で複雑系科学と哲学は似ている

複雑系科学のメタフィジクス
 現象の分類
  代表的なものはある。定性的不変クラスは出尽くしている?
   ベキ/同期/カオス/自己複製/自己組織化/etc.
 現象を捉える時の粒度依存
 好きなモデルがある
  力学モデル/計算モデル/確立モデル

表象の有無
 人間モデル→力学モデル+自己学習=RNN
  Elman Network
   スケールアップ問題
    徐々にニューロン数/層数を増やしながら複雑な学習をさせていく方がベターという報告
   過学習問題
 どこまであれば「表象がある」?
  定義困難、プアか否かぐらい?
  タコイカ細胞ではない
  内部ダイナミクス(アトラクタ)としての表象
   ダイナミクスに応じて行動も変わる
 「表象」の必要性
  猫+イカとかを説明しやすい

(論文メモ) Automatically Extracting Polarity-Bearing Topics for Cross-Domain Sentiment Classification / ACL-HLT 2011

火曜日, 6月 28th, 2011

ACL-HLT 2011から面白そうな論文5件目。


出典情報: P11-1013: Yulan He; Chenghua Lin; Harith Alani, Automatically Extracting Polarity-Bearing Topics for Cross-Domain Sentiment Classification, ACL-HLT 2011

情報検索(Information Retrieval, IR)における検索対象であるドキュメントを自然言語処理して少しでも意味を汲み取って精度良くマッチングさせるためのアプローチとして「単語極性を考慮」するらしい。

前置き

評判分析と極性判定

アンケート調査やAmazonのレビュー等のように、自由記述テキスト形式で書かれた文章集合から価値ある情報として評判情報を抽出することを評判分析(Sentiment Analysis)と言います。評判情報分析、コメント分析、口コミ分析等とも呼ばれています(参考:「テキストを対象とした評価情報の分析に関する研究動向」)。分析の仕方や分析結果にもいろんな切り口がありますが、単語の極性(Polarity)判定では「その単語がポジティブに使われているか、ネガティブに使われているか、それ以外(中立的)に使われているか」を判定することでその後の分析に活用します。

極性判定の難しさ

GoodとかBadのような直接的に良し悪しが判断しやすい単語もありますが、例えば「Small/小さい」という表現を例にとると、ノートPCに関するレビューで「小さくて持ち運びに便利」というニュアンスで書いた言葉ならpositiveと捉えるのが自然ですが、一方でスマートフォンに関するレビューで「液晶画面が小さくて使いづらい」というニュアンスで書いた言葉ならnegativeと捉えるのが自然でしょう。突き詰めると文章毎に判定する必要がありますが、計算コストや実験設定の都合上「分野毎に大まかに判定する」形で評価していることが多いようです。

ベースになる先行研究としてJoint sentiment-topic (JST)があるらしい。JSTは、Latent Dirichlet Allocation (LDA)をベースにした確率モデルになっている。そのLDAは、「全ドキュメントがトピック数Tに分類される前提(固定値)で、トピック毎の単語出現確率を表す確率分布と、文章毎のトピック確率分布の紐付け方(紐付けるためのパラメータ)を推定するというアプローチっぽい。多分。(参考:朱鷺の杜WikiLDA入門分野に依存しない単語極性を考慮した評判分析のための転移学習モデルLDA (Latent Dirichlet Allocation) の更新式の導出

この紐付けがうまくいけば、単語に対してトピックと極性情報の対からなる情報を付与することができる。この紐付けのためのパラメータを推定するのが大変というか工夫のしどころらしく、この論文ではLDA→JST→改善JSTという流れでその推定方法をより良くしようとしているのが主題っぽい。

JSTにおける2つの確率分布を紐付けるためのパラメータはいくつかあって、それらをうまく推定してやらないと精度が上がらない。その推定を(1)直接やる人もいれば、(2)バッファ的に何か別の処理を一度通すことで推定しやすくするという人もいれば、(3)パラメータに関与する因子を増やして精度高めようとする人等、様々なアプローチが試みられているようです。

例えば、大元のLDAではパラメータはαとβの2つなのに対し、LDAをベースにしたJSTではα・β・γの3つに増えています。これは、LDAではトピックzをパラメータαだけで分布を推定しようとしているのに対し、JSTでは単語の極性lを考慮するためにγパラメータを追加しているから。つまり、素朴に「トピック毎の単語出現確率を表す確率分布」と「文章毎のトピック確率分布」を直接紐付けることで文書集合を表現するだけでは不十分で、「単語の極性も考慮した方が文書がより適切に表現できるんじゃないの?」といった仮説を考え、前述の(3)のような考え方で因子を増やして対応したモデルを作りだしたのだろうと思います。(妄想で書いてます)

LDA→JSTは置いといて、この論文ではJSTをより改善するために、トピックが持つ語彙ベクトルφをパラメータβだけで分布推定するのではなく、極性ラベルSに基づいたパラメータλを導入することで単語極性をここでも考慮した分布になるように推定しようとしているっぽい。単純にまとめると、α側だけじゃなくβ側でも単語極性を考慮して推定したいらしい。それで「polarity-bearing」と呼んでいるかしら。

LDAからして「名前聞いたことある」ぐらいのレベルなんですが、自然言語処理に限らず特徴ベクトルを構成する要素にラベリングすることが必要で、そのラベリングが分野に応じて異なるケースでは汎用的に使えそうな枠組みですね。例えば、ドキュメント→画像として置き換えると、画像集合を特徴ベクトル集合で表現した上で、各特徴は何らかの概念的なトピックにおいてネガティブ/ポジティブ/中立な意味を有するものとして特徴毎に紐付けした解析しやすいモデリングができたりしないのかしら(妄想)。

一方、欠点というか気になる点としては、JSTでは「トピック」という言葉を使っていますが、これは概念的な用語であって実際にはそれが何を意味しているかは良く分かっていなさそうに見えます。ただ、文字通りのトピックとしても多義語とかいろんな問題でてくるだろうから、一概にこれが欠点という訳では無さそう。良し悪し置いといて、このあたりを俯瞰できる枠組みがあると面白そう。

(論文メモ) Query Weighting for Ranking Model Adaptation / ACL-HLT 2011

月曜日, 6月 27th, 2011

ACL-HLT 2011から面白そうな論文4件目。


出典情報: P11-1012: Peng Cai; Wei Gao; Aoying Zhou; Kam-Fai Wong, Query Weighting for Ranking Model Adaptation, ACL-HLT 2011

Joint Annotation of Search Queriesと同様、ドキュメント検索時にクエリに対して適切なドキュメントを紐付けしようという話らしい。Joint Annotation との違いは、クエリをアノテーションすることで意図を解釈しやすくしようというのではなく、直接クエリを特徴ベクトルとして表現した上で、「既に別の問題領域で学習済みの知識」を活用することで重み調整することで高精度で紐付けましょうという点。

前置き

ランキングアルゴリズム

ある検索要求(ここではクエリ)に対して適切だと思われるコンテンツ(ここではドキュメント)を提示するため、その適切さを何らかの形で点数化し、順位付けるためのアルゴリズムの総称。有名どころはご存知PageRank。ただし、Blog、SNS、Twitter等のユニークなURL付きコンテンツの増加といった環境変化の影響も少なくなく、常に改善が試みられており、今回の論文はその一例です。

特定ランキングアルゴリズムに特化することの問題

検索って便利ですよね。でも何事にも良い面悪い面があるものです。例えば、Coding Horror: Googleに問題アリではスパムサイトを例に問題点を指摘しています。

他にも、例えばGoogleがデファクトスタンダードになってしまうと、事実上Googleの恣意的な考えに基づいてランキングされてしまう一種の検閲に近い状況になってしまうことを問題視している人も少なくないようです。

ここで気に留めて欲しいことは、Googleのランキング手法に問題があるという点ではなく、どのような手法であれ(人手による判断であっても)何らかの作用を受けたランキングになってしまうということです。なので、なるべく「何らかの作用」ができるだけ分かりやすい形で明示されており、作用の種類が自由に選べるぐらい豊富にあるような世界が好ましいだろうと考えています。

(Twitterでもfavotterとかが一つのランキングを実現していますが、今のままで面白いという人もいれば、Twitterが広まり過ぎて上位に来るツイートが有名所ばかりになってつまらないという人もいるでしょう。どちらが良いというよりは、どちらも、それ以外にもあった方が楽しみやすそうですよね)

クエリに適切なドキュメントを紐付けるという問題設定において、
 ・クエリ:要求そのもの
 ・ソース文書:既にある程度学習した知識を有する問題領域(ドキュメント群)
 ・ターゲット文書:今回改めて紐付けしたい問題領域(ドキュメント群)
と用語を使い分けているらしい。

検索対象がAmazonみたいな商品の場合でもそうですが、Webページの場合にはそれどころじゃないぐらい対象が多い。Webページ全てに教師データを用意することは当然不可能なので、教師データを用意する試みがいろいろあります。一つは先に紹介した能動学習(Active Learning)のように「ある程度教師データを用意したからこれを元に学習進めておいて、難しい所は聞いてね」というもの。この論文では能動学習とは異なる方法がベースになっていて、転移学習(Transfer Learning)や知識転移(Knowledge Transfer)と呼ばれる「関連したドメインの知識やデータを転移して目標ドメインの問題をより高精度で解く」ことで教師データの準備コストを削減するアプローチの一種らしい。

この転移学習をベースにしたランキングアルゴリズムを Ranking model adaptation と呼んでいるらしい。異なる領域で学習した知識なりを転移して使うことになるので、領域同士が似ている方がより効果的に学習できるっぽく、クラス分類の転移学習においては(多分その似ている事例を識別して)インスタンスへの重み付けを行うことでうまくいくということが示されているらしい。

一方、そのクラス分類学習における転移学習と、ランキングにおける転移学習には、質的な違いがありこれが大きな問題になる。具体的には図1に示される通り、クラス分類におけるインスタンスは「ソースもターゲットも文書だけ」なのに対し、ランキングでは「クエリと文書の2種類あり、文書がどのクエリに属するか」が存在することを考慮する必要がある。つまり、「どの文書がどのクエリに属するかの情報」を考慮してやらないと高精度な学習結果が得られないはず。

この問題を解決するために、クエリの段階で重要度を直接算出したい。そのイメージが図2に示されていますが、「転移元と転移先において、文書集合が似ているクエリ同士は転移する価値が高く、似ていないなら転移する価値が低い」というようにクエリに紐付けた知識毎に価値を重み付けする(Query Weighting)っぽい。従来の手法だと、クエリが特別扱いされてなく、「素朴に文書アイテムに対して重み付けする(document instance weighting scheme)」形で転移学習しようとしてしまうため、どの知識が似ているかどうかの判断がしづらいらしい。

ところが話は簡単ではなく、クエリの価値を推定するのが(多分計算コスト的に)容易ではないので、(1)各クエリを文書インスタンスを加味した特徴ベクトルに圧縮してから重み付けする方法、(2)ソースとターゲットのクエリ間で類似度を算出することでクエリの価値を算出する方法を提案する。というのがこの論文の主題らしい。

上記2手法を評価するため、計算機実験ではLETOR3.0に基づいたベンチマークとしてTREC-2003とTREC2004で比較検証しているらしい。LETORは「Learning to Rank for Information Retrieval」の略らしい。へー。実験では転移元と転移先をHP03→TD03、HP04→TD04、NP03→TD03、NP04→TD04の4ケース分で結果を確認していて、DSモデルベースで重み調整した方が良い傾向(重み調整無し時で50~70%に対し、4ケースとも数パーセント改善)にあるらしい。ただ、重み調整の仕方によっては「重み調整しない方が良い」ケースもあるので、要調整なんだろうなと想像。

いずれにせよ「素朴にドキュメントと同様に扱う」のではなく、クエリで結びつけたドキュメント集合をクラスタ的に扱って調整してみるというアプローチは面白い。精度的には思った程改善していないように見えるのは、教師データにノイズがあることを加味したアプローチになっていないのが主要因なのかしら。それともこれぐらいの改善でも結構凄いのだろうか。

(論文メモ) Joint Annotation of Search Queries / ACL-HLT 2011

金曜日, 6月 24th, 2011

ACL-HLT 2011から面白そうな論文3件目。
面白そうと書きつつ自然言語処理にそれほど詳しくないから誤解してる部分多々ありそうなんだけど。


出典情報: P11-1011: Michael Bendersky; W. Bruce Croft; David A. Smith, Joint Annotation of Search Queries, ACL-HLT 2011

検索エンジンにおいて検索窓に入力される文字列はクエリと呼ばれています。そのクエリをhogehogeしましょうという話らしい。

前置き

クエリから意図を読み取るのは難しい!

一般的にクエリは検索対象となるドキュメントと比べて圧倒的に情報量が少ないです。キーワード1つとか2つといった状況や、構文がハッキリしない曖昧な文章っぽいものが入力されるケースも少なくない。そういう状況下で「ユーザが求めているドキュメントはこれだ!」という判断をする必要がある。単純なキーワード・マッチングだけだと検索漏れが多すぎるので、なんとか工夫して意図を汲み取りましょうという研究事例が多いらしい。

意図を汲み取るために使われる技術の例(*注1

例えば、自然言語処理でいうと、以下のような技術を利用されます。

形態素解析, タガー(tagger): 単語単位で品詞を判定する。
 →動詞や名詞判断すると少しは意図が汲み取りやすくなるかも?
構文解析, パーサー(parser): 文を句や節単位に区切り、それらがどのような構造になっているかを解析する。
 →クエリに現れた名詞はどんな単語が形容しているのか、作用しているのか、名詞を対象とした何を探そうとしているのかといった情報を利用して意図を汲み取れないか?

ある程度ボリュームがあって綺麗に編集された文章ならばこれらの技術を利用しやすいですが、クエリの場合には文としても不自然だったり不十分だったりするので、既存技術を単純に利用するといったことが困難! ということで様々な取り組みがあるらしい。

クエリにおける自然言語処理以外の解析例

クエリは確かに文章としては扱い難いのだけど、文章とは異なる特徴もあり、それを利用して意図を汲み取ろうとする解析例もあります。

例えば「一つ目のクエリでめぼしい結果が得られない場合、続けて複数回異なるクエリで試しやすい」という傾向を利用して、時系列順に複数クエリをグルーピングすることができます。これを利用して、そのグルーピングされたクエリ集合をクラスタリングすることで似たクエリ集合を作り、それらの時系列情報を利用して「こういう順序でクエリを入力するユーザはこういう情報を得ようとしている可能性が高い」といったことを抽出しやすくなります。

「もしかして」も、似たクエリ集合から追加キーワードとかキーワード自体の編集を促そうとする形で望んでいるだろうページへの誘導を図る例ですね。ただし、追加キーワードについては割と単純な話じゃなく、「そもそもユーザのクエリがおかしい」ケースも多々あるので、適切な追加キーワードを精度良く提供するという話もあるらしい。

そしてクエリ拡張へ

良く分からないのだけど、「クエリ拡張(query expansion)」というキーワードがあって、こういう「クエリから得られる情報を増やす」とか「クリックされる頻度を利用して返すコンテンツの順番を調整する」といったことでクエリ⇄コンテンツのマッチングを改善する手法の総称をそう呼んでいるのかなと想像。Wikipedia見る限りでは自然言語処理寄りっぽいけど。

この論文におけるベースになる部分は、クエリから意図を汲み取りやすくするために、「ある程度文章っぽいクエリ(例文: who wan the 2004 kentucky derby)」に対して各単語に下記3種のアノテーションすることが大前提になっているらしい。
 ・CAP: 各単語が小文字/それ以外。
 ・POS TAG: 名詞/動詞/それ以外。
 ・SEGmentation: チャンクの開始/チャンクの中。(チャンク=文節等の塊)

上記のアノテーションがある程度実現出来ているという前提で、それらを利用してクエリを適切に(言語学的に)構造化したいということらしい。イメージ的には、単語毎にアノテーションされている状態から、「単語1番目と単語2番目」といったシーケンシャルな単語集合(shallow sequence)に対して「1つのクエリ語句(a single query term)」であるというアノテーションをしたいっぽい。多分、先の例文でいうところの「who wan the 2004 kentucky derby」では「who wan」、「the 2004 kentucky derby」という2つのサブクエリが組み合わさった一つのクエリなんだ、ということを認識しようということなのかな。この部分がタイトルにある Joint Query Annotation のことっぽい。

SEGmentationタグだけでもこのぐらいならできそうだけど、実際にはこんな綺麗な文章だけじゃないので、CAP、TAG、SEGを組み合わせて利用することでより精度良く Joint Query Annotation を実現しようという試みなんだと思います。

実験では、3種のアノテーションを独立した状態で Joint Query Annotation させた場合(i-QRY, i-PRF)と、3種を組み合わせて利用する場合(j-QRY, j-PRF)とで比較検証しているらしい。ただ、ここを見ると「i-QRY, i-PRF」では、CAP,POS,SEGmentationのアノテーションを独立して処理していて、「j-QRY, j-PRF」ではその3種を合算して最適化する処理をしているように見える。何が違うかというと、3種アノテーションする際に「前者は一度付けたらそれをそのまま正解とみなしており、後者は他アノテーションとの兼ね合いからちょっとおかしそうだから調整し直そうとする」という違いに見える。

大分斜め読みしてるのでどっちの解釈が正しいのかは良く分かってませんが、どちらのアプローチもありだよね。

P.S.

生駒日記によると、
本研究では、これらの3つの系列ラベリングのタスクを同時学習することで、精度を大幅に向上させることができた、という話。

と読むのが正しいらしい。後者の方が正しかったか。



*注1: 実際にはユーザの意図を必ずしも汲み取る必要はありません。結果的にユーザが望んでいる検索結果を提示できれば、クエリに対して望む結果を提示することができれば良い。ここではイメージしやすいようにこう書いています。

(論文メモ) Evaluating the Impact of Coder Errors on Active Learning / ACL-HLT 2011

木曜日, 6月 23rd, 2011

ACL-HLT 2011 から面白そうな論文2件目。


出典情報: P11-1010: Qixia Jiang; Maosong Sun, Semi-Supervised SimHash for Efficient Document Similarity Search, ACL-HLT 2011

MinHashじゃなくてSimHashなんてものがあったのね。

前置き

N次元特徴ベクトルとして表現することで対象間の類似度を求める

機械学習の多くがそうですが、何かを解析しようと思った場合にはその対象をN次元の特徴ベクトルとして表現することが多いです。どのようにベクトル化したら良いのかは腕の見せ所ですが、適切なベクトル化が実現できるなら、後はそのベクトル同士がどのぐらい似ているか(距離が近いか、角度が近いか、大きさが近いか、etc.)といった問題に落とし込むことができます。同一ベクトル空間に存在する(同じ土俵にいる)なら、その空間上でどのぐらい似ているかを計算(類似検索や近傍探索など)することで「関連商品」とか「類似画像」とかを求めやすくなるわけですね(*注1)。そのベクトル間類似度を図る指標にはJaccard係数やTanimoto係数等の様々な方法が提案されています。

計算コストを抑えるために擬似的な類似度を高速に求める

ここではそれらを用いて類似度を測れるということが分かっている場合の話(もし図れないのなら適切な類似度を測れる指標自体を考える所からやる必要がある)。ちゃんと図れるんだけど、検索エンジン等の大規模なデータ集合に対して計算する必要がある場合、その計算量が馬鹿にならず事実上そのままでは使えません。それを擬似的に高速に求めましょうというのがMinHashです。MinHashを更に改良した話もこのブログに紹介されていますね。

局所的に鋭敏に反応するハッシュ関数群を用いる手法: LSH

今回この論文タイトルにでている SimHash も基本はハッシュ関数を使ったもので、別名 LSH (Locality Sensitive Hash) とも呼ばれているらしい。正確にはLSHの一例がSimHashということらしい。先に紹介したMinHashもLSHの一例。いずれにせよLSHなら聞いたことあるよー(*注2)。(SimHashってなんだろうと気になって選んだのでこの時点で興味が半分薄れてしまった)

SimHash(LSH)は、「類似度の高い特徴ベクトル同士は同じハッシュ値になりやすい」ように設計されたハッシュ関数を使うことで「最近傍探索」することで類似度計算を近似しましょうというもの。LSHで良く耳にする実装例としてLikelike(リケリケ、と呼ぶらしい)があります。一種のクラスタリングともみなせるけどかなり特殊で、「同じハッシュ値になるものは似ている事例」にはなりやすいけど、所詮ハッシュ値なので「ハッシュ値」そのものには意味が無く、「近いハッシュ値」に該当する事例が似ているかどうかは相関が無い(はず)のがちょっと残念。(クラスタリングなら各クラスタからの距離を計算することでどのぐらい似ているかの指標を計算することもできる)

論文タイトルには「Semi-Supervised SimHash」とあるので、完全に自動化した手法ではなく、例えば先の能動学習のような形で半自動的にSimHashする手法を提案するというのが趣旨なのかなと想像。LSH良く分からないけど。

アブスト読む限りでは「教師無しLSHは性能が十分じゃない。かといって教師ありLSHでも類似ドキュメントを検出するには十分ではない(ハッシュ値が近いからと言って似ているという話にはならないので、同じハッシュ値にならないと類似ドキュメントとして検出できない)。そこで、類似データが同じハッシュ値となりやすいように事前に重み調整してやることで精度改善を目指す」みたいなことを提案しているらしい。

なんとなく大枠は分かったし、これ以上はLSH/SimHash自体をちゃんと勉強してからじゃないと理解し難そうなので、今回はここまで。



*注1: 適切に特徴ベクトルそのものを(半)自動生成することはできないのだろうか。


*注2: 上記注1に関連して、「ランダムにハッシュ関数を大量生成して特徴ベクトルそのものを自動生成するために利用できないかなー」とか考えてるのだけど、どうなんだろう。既に作られてる特徴ベクトルから有益な特徴空間に圧縮するという話ではなくて、ベクトル化される前の生データ(文章だったり写真だったり音声だったり)から自動生成させたい。

(論文メモ) Evaluating the Impact of Coder Errors on Active Learning / ACL-HLT 2011

水曜日, 6月 22nd, 2011

自然言語処理分野で世界最大の国際会議ACL-HLT 2011の論文が公開されました」ということらしいので、Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT 2011)から面白そうな論文をリストアップしてみます。

ちら見した感想も書いてありますが、ざっと眺めて気になった点を書いてあるだけなので事実と異なる可能性もあります。気になるなら原本読みましょう。


出典情報: P11-1005: Ines Rehbein; Josef Ruppenhofer, Evaluating the Impact of Coder Errors on Active Learning, ACL-HLT 2011

能動学習におけるアノテーション・ノイズが精度に及ぼす影響を評価してるっぽい。

前置き
「能動学習」は機械学習の一種。一般的な教師あり機械学習では、予め正解を付与した事例集合からそれらを分類したり類似判断したりするための有益な判断基準を自動抽出するのに対し、能動学習では抽出した判断基準を用いて未知の事例集合について判断した結果に自信が無い場合、それを人間に質問して正解を確認しながら学習します。つまり、少しずつ事例集合を増やすという対応ができるので、最初から大量の正解事例を用意することなく、苦手な(判断が困難な)事例を判断しながら事例を増やしていくことができたりするので、事例を用意する手間を大きく省けることと、事例自体を追加し続けることができる点が嬉しい。

ここでのアノテーションは、ここでは事例に与える正解と考えてもらって良さそう。つまり、アノテーション・ノイズとは、ある事例に対して与えられた「正解」に誤りが含まれること。人間が手作業で付けるので、判断ミスもあればタイプミスもあるかもしれない。一人の人間だけじゃなく複数の人間で作業することも多いので、個々人の判断基準がそれ難いので、用意された「正解」にも誤りが含まれ得るということです。このノイズが学習に及ぼす影響を調査してみた、というのがこの論文の主旨になります。

一つ目の実験設定としては下記3ケース、
 ・rand: ノイズ含んだ事例集合からランダム・サンプルした学習、
 ・ALrand: 事例に付与されたクラスをランダムにN%変更するノイズ(片寄無し)を付与した状況での学習、
 ・ALbias: 同様のノイズをバイアス付けて付与した状況での学習、
についてノイズの割合を増やしながら比較評価してるらしい。(図1を見ただけで見て取れる結果なだけで読み違えている可能性があるけど)意外なことに結果は、
 ・エラー率が低い状況(10%ぐらいまで): 「rand<ALrand<ALbias」の順で精度が良く(「落ちにくい」と読むのが正しい?)、
 ・10〜20%ぐらいでは「rand≒ALrand<ALbias」、
 ・20〜30%ぐらいでは「ALrand<rand<ALbias」
のように、付与したエラー率によって順番が変わってくるらしい。大雑把な傾向として「rand≒ALrand」や「rand≒ALrand<ALbias」なのは直感に符号するのだけど、「rand≒ALrand」についてはノイズの割合が変わると割と顕著に差が開くらしい。やってることは質的には同等に見えるのだけど、影響が異なるらしい。一体何故。

その原因を追求するためなのかは分からないけど、筆者は過学習のリスクや能動学習初期段階における判断精度の低さが要因となる問題を避けるために「能動学習時に教えてもらう教師データを鵜呑みするのではなく、そのデータとこれまでの学習結果を組み合わせることでより一般的な特徴ベクトルを生成する。(多分全クラスN個分に対して同処理を行う)。その後、N個の分類器とoracle(システムからの質問に答える人)の関係からそれを学習するのに適切か否かを判断し、適切ならば学習する。適切じゃなければ学習しない。(例えば、全分類器がagreeしてるのに、oracleがdisagreeという状況ならrejectする)」というアプローチを提案しているらしい。実際にはもうちょっと細かいことやってるようだけど、合議アルゴリズムのような形で学習すべきか否かを判断させている訳だ。

結果は、図3を見る限りでは「どちらかというと悪く作用している(精度が落ちやすく見える)」ように見えるのだけど、考察を読む限りでは改善しているらしい。あれ、図の見方間違ってる?(表2では良くなってるところもあるけど、どの時点での精度なのか良く分からず)

ノイズが完全に無いデータなんてのは非現実的だと思うので、意図的なノイズにせよノイズが精度に及ぼす影響とそれを踏まえた学習手法の改善策としては面白いですね。

情報推薦/情報抽出に関する研究事例あれこれ

火曜日, 4月 12th, 2011

学生が情報推薦/情報抽出といったキーワードに興味があるとのことで、先行研究の例として「どういう観点で取り組んだ例があるか」という観点から大雑把にここ最近の口頭発表事例をピックアップしてみました。大雑把にしか目を通してないので誤った見方してるものもあるかもしれませんのでご注意を。あと、アプローチについては基本的に見ていません。手法は目的や目標ができてから関連事例を探せば良いわけで、まずは目的を明確にさせたいので。

多くはFIT2010とNLP2011から。番外編として大規模データマイニングとして面白そうな話をしているhamadakoichiさんの資料もピックアップ。

  • 情報推薦の歴史
  • 嗜好抽出と情報推薦技術

  • 言語処理学会第17回年次大会(NLP2011)から目についたものをピックアップ
  • B2-2, マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案
    内容以上にタイミングを重視した推薦手法。
    B2-3, Twitterからの個人の行動に起因するトラブル予測システムの試作
    Twitterをライフログとして、「一個人」を対象とした未来予測(≒推薦)。
    B2-5, Twitterユーザの属性判別によるスポーツ映像の自動要約
    特定のキーワードを呟いているor推薦候補にそれが含まれるからといって、そのキーワードに興味があるとは限らない(e.g., 巨人ファンアンチ巨人)。より深くプロファイル作って推薦しようというお話。
    B2-6, Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出
    日々生まれる新語・略語について理解を促すための用例を提示するシステム。
    P1-19, Twitterからの自動車の不具合情報抽出
    D2-3, レビューからの商品比較表の自動生成
    D2-7, 手がかり表現自動獲得による製品発表プレスリリースからの製品特徴の抽出
    3件とも既存サービスの問題点を抽出・整理して改善の種を探しやすくするという、提案/決断をする人向けの情報推薦。
    E5-4, Twitterへの絵文字自動挿入システム
    部分文字列毎に類似した「絵文字入り文字列」を検索することで、自動的に絵文字を挿入しようという話。
    C3-2, 書評利用のレコメンデーションを目的とする書評検索システムのためのキーワード抽出
    ランキング依存では「大多数」な情報しか推薦できず、好きなものを探し難い。というスタンスで取り組んでいる例。
    A5-6, 最大クリーク探索に基づく特許検索履歴の統合
    検索時に入力されるクエリには同じ単語であったとしても異なる観点で入力されている。そのような観点を自動抽出して検索支援に応用しようという話。
  • 第9回情報科学技術フォーラム(FIT2010)から目についたものをピックアップ
  • D-001, 個人の性格データに応じたアニメーション表現を伴ったWebバナー広告生成システムの提案
    嗜好に応じて動画広告を自動生成しようとする試み。嗜好はユーザに入力してもらうので、検出的な所は狙わずに分かってる前提での推薦ですね。
    D-003, 個別広告提供のための精緻化見込みモデルに基づいた広告メッセージの決定
    キーワード連動広告掲載時のメッセージを適切に自動選択しようという話。
    D-005, 口コミ情報の価値に対する時間的指標の表現方法とその評価
    偶発的な発見を支援する「街角メモリ」という概念について、必要となる評価をどうやるかについての話。
    D-026, 携帯電話検索ログデータに基づく行動特性の分析
    嗜好を検索ログから行動特性分析という形で特徴抽出しようという話。PCと異なる使われ方をするということを念頭に置いた話らしい。
    D-027, 小規模サイトにおける情報推薦を目的としたデータ統合手法
    データやインタラクションが少ない環境下での推薦に関する話。
    D-043, ソーシャルブックマークにおける方向性を持った推薦システムの提案
    似ているという基準だけではなくそれに方向性を加えたいという話。NLP2011のA5-6と同じ目標かも。
    RD-002, HTML要素に着目した違法・有害サイト検出手法の提案と評価
    アンチ推薦というか、推薦したくないのを除外するフィルタリングの話。
    RD-003, コミュニティQAにおける良質な回答の選定タスク: 評価方法に関する考察
    良質の回答を自動選定するための評価に関する話。
  • 大規模データを大前提にした「楽しさのデータマイニング」: 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

東北関東大震災とソーシャル・メディア(ショートバージョン)

月曜日, 3月 28th, 2011

学科システム落ちてる間にmixiに投稿済みの内容ですが、学生向けという意味でここでも紹介。

ほんの少ししか手伝いできていませんが、ANPI NLP というプロジェクトを通したボランティア活動をしました。某所への寄稿したものなので、ここでは圧縮してかいつまんで紹介してみます。いろんな支援の仕方があるよね、という意味を込めて。


 ほんの数年前までのソーシャル・ネットワークでは人間関係を構築する場といった側面が強調されていましたが、今回の震災を切っ掛けに、緊急を要するタスクとして認知し合った人らを中心として繋がり、互いに知識やデータを提供し合い、タスクを分割して協力するといった具体的な活動を行う場やその活動を支援する場(ソーシャル・メディア)としても有効に機能し始める時代へとなってきました。

 活動の一例として、Googleのパーソンファインダー(消息情報)。
(*1)Google Person Finder (消息情報): 2011 東日本大震災
 http://japan.person-finder.appspot.com/

 パーソンファインダーは、インターネットを介した人海戦術によるアプローチ。これ以外にも、専門知識を有する人らがプロジェクトとして協力し合う活動も現れました。

(*2)ANPI NLP (東日本大震災のためのデータマイニング・自然言語処理に関する情報のページ)
 http://trans-aid.jp/ANPI_NLP/
(*3)sinsai.info (東北沖地震 震災情報サイト)
 http://www.sinsai.info/
(*4)Twitter 上の大震災関連「救命・救助要請情報(#j_j_helpme・#311sppt 関連)」要約 & 通報支援サイト
 http://www.selab.cs.tut.ac.jp/~aida/
(*5)東北関東大震災 安否情報 横断サーチ
 http://trans-aid.jp/ANPI_IR/ja/

 (*2)のANPI NLPでは、楽天技術研究所(以下、楽天技研)の萩原さんの声かけにより主に自然言語処理やデータマイニングと呼ばれる分野で活躍している専門家が集い、「Twitterなどから得られる安否確認情報を照合、更新することでPerson Finderの情報を充実させること」を大きなタスクとして取り組まれています。

 そもそもの始まりは、楽天技研の萩原さんによるツイート「こういう緊急時にも自然言語処理が役に立てることはたくさんある。(中略)特に今必要性が高いのは名寄せ技術だと思う。被災者・安否不明者の表記揺れに困っている自治体とか多そう。」のようです(*6)。

(*6)言語処理屋さんが連携していく様子
 http://togetter.com/li/111529

 このツイートを切っ掛けに、
 ・Google日本語入力Mozcを開発されている工藤さんがデータ提供。
 ・地震を含むツイートを収集していた大阪大学の松村先生からデータ提供。
 ・京都大学のGraham Neubigさんから人名・地名モデルの提供。
といったアクションが高々数時間のうちに行われました。このスピード感で進む様子を受けての判断だったのだろうと想像しますが、翌日になる3月15日にハッシュタグ #anpi_nlpとしてTwitter上の情報集約が開始され、加えて情報通信研究機構の内山さんからの提供によりMedia Wiki上での整理が始まりました。切っ掛けとなる最初のツイートから僅か1日後のことでした。

 こうしてANPI NLPが始まり、前述の目的を達成するためのタスクが用意されました。ここで用意された当面のタスクとは、地震関連のツイートデータ約6万件が既にあり、これらのツイートが「安否情報を含んだツイートなのか(もしそうなら人名や地域名がどこに記述されているか)」「救助要請を含んだツイートなのか」「関係のないツイートなのか」といったことを人手で判断し、目印を付与するというものでした。この目印を付与するという作業は、直接的にはコンピュータで処理しやすくなる(パーソンファインダーの情報と照合しやすくなる)というのが利用目的になりますが、それだけではなく間接的な効果にも期待しての人海戦術でした。

 この間接的な効果の例として、分類器の構築があります。分類器とは、入力されたツイートを「安否情報を含んでいるツイートか/そうではないのか」といったYES/NO形式で分類したり、「生存を確認したツイートなのか/死亡を確認したツイートなのか/安否確認の情報を求めているツイートなのか/それ以外なのか」といった複数選択肢のどれに該当するかを自動で分類してくれるシステムのことです。もし、現時点でのツイートデータ6万件についてのみ処理したら全てが終了するというのであれば、全てを人手で処理することも考えられますが、実際には関連ツイートは日々収集され続けます。それら全てを人海戦術で判断するのは事実上不可能のため、少しでもその手間を和らげるために自動化しよう。その自動化をするための技術として、人手で付与した正解データ(分類結果)から「どのように分類するのが最も妥当か」を自動で学習する技術である分類器を使おう。こういった効果を狙っての試みでした。

 3月24日現在では、当初の目的であるパーソンファインダーへの寄与に関しては楽天技研を中心として続けられ、それ以外の災害支援タスク(安否情報ツイートと避難所を関連づけるタスクや、外国語に機械翻訳するといったタスク等)についても提案され、少しずつその結果が出始めているようです。日々更新されている状況ですので、詳細はANPI NLPのサイト上にてご確認頂ければと思います。

 以上、ソーシャル・メディアを通した活動例を紹介すると共に、自然言語処理屋の皆さんが構築されている成果物を利用している一人としてANPI NLPに賛同し、関わった活動内容の一部を紹介してみました。この活動が震災支援の一助となれば幸いです。

NLP2011, 本会議3日目終了(セッションE3:不自然言語処理 枠に収まらない言語表現の処理(1)、B4:対話・文脈処理、A5:教育応用)

木曜日, 3月 10th, 2011

NLP2011、本会議3日目(一般講演セッション3つ)。
本会議最終日は、
 E3:不自然言語処理 枠に収まらない言語表現の処理(1)
 B4:対話・文脈処理
 A5:教育応用
に参加してきました。

夜は交流行事があるようなのですが、力つきて見送ってしまいました。明日もまだあるし。というか皆さんほんと体力ありますね(汗)

三日目にしてようやく「素性」の大切さというか、高精度を実現しようとすると苦労するポイントが似通ってくるんだなというのが分かってきました。それぐらい、多くの発表で出てくる話題。人間ってどうやって素性を捉えているんでしょうね。

目次
E3:不自然言語処理 枠に収まらない言語表現の処理(1)
 ・文頭固定法による効率的な回文生成
 ・日本語常用漢字熟語の選好変化と自然言語処理
 ・「不自然言語処理コンテスト」第1回開催報告
 ・ウェブからの疾病情報の大規模かつ即時的な抽出手法
 ・データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法
 ・感情推定における若者言葉の影響
 ・教師付き外れ値検出による新語義の発見
 ・定型から逸脱した言語表現の分析

B4:対話・文脈処理
 ・POMDPを用いた聞き役対話システムの対話制御
 ・対話型e-Learningシステムの開発
 ・共通状態と連結学習を用いたHMMによるコールセンタ対話の要約
 ・コールメモを利用したコールセンタ向け音声対話要約方式の提案
 ・Toward Plan Recognition in Discourse Using Large-Scale Lexical Resources
 ・視線情報を利用した協調作業対話における参照解析
 ・直接照応解析における分野情報および文脈情報の有効性検証

A5:教育応用
 ・学習指導要領に立脚した児童作文自動点検システムの実現
 ・非日本語母国話者の作成するシステム開発文書を対象とした助詞の誤用判定
 ・翻訳教育向け「みんなの翻訳」
 ・Stativity判定に基づいた時制誤り検出
 ・最大クリーク探索に基づく特許検索履歴の統合
 ・テレビスポーツ番組におけるリアルタイム字幕の特徴





E3:不自然言語処理 枠に収まらない言語表現の処理(1)
3月10日(木) 9:00-11:50 A1-301教室  座長: 村上浩司 (楽天)
E3-1 文頭固定法による効率的な回文生成 (pp.826-829)
○鈴木啓輔, 佐藤理史, 駒谷和範 (名大)
回文条件3つ  語順+文法+意味  機械での判断難易度:語順<文法(文節内文法+係り受けチェック)<意味   語順+文節内文法までのチェックを行う 回文条件1のために、網羅的生成では時間がかかりすぎる  折り返し固定法→文頭固定法(シード文節を文頭文節にする)   初期状態数が減る+初期状態での不足文字列が現れ難い    文節数3: 21時間→42分 文節集合のクリーニング  JUMAN形態素辞書から読み2文字以下の語構成要素を人手で削除  コーパス対応  →生成数・生成時間が1/3に、高精度で生成できた   JUMANで「罪」を常に「ざい」と読んでしまう等で生成できない回文もあった Q: 直接的に何に利用できるか想像つかないけど、「お遊び」を解析すること  で得られる知見が間接的に応用できることはありえそう。どういうものが  あるだろう。。 会場Q: (1)折り返し固定法と文頭固定法とで良い回文生成という点でどういう  違いがあるか。(2)多くの時間がかかるが、アルゴリズムやデータの持ち方  についてどのぐらい高速になったのか。 A: (1)全文生成なので同じ。(2)いろいろ工夫していたがこれまでは劇的な  改善には結びつかなかった。今回の手法で初めて大幅に改善できた。 会場Q: 今後の課題について、生成候補を文法や意味的に絞り込むようだが、  単語の言語モデル等を考慮して自然な文にすると想像するが、最初の段階  でランキングするといったことは考えられるか。 A: 係り受けチェックや意味チェックは動的にやっていきたいと考えている。 会場Q: 回文は楽しいと思うが、3文節ぐらいだとつまらないように思う。  人が頑張ると持ってできそう。長くなる程人間にはできなくなると思うので、  生成した回文を公開して欲しい。 A: まだ公開していないが、ちゃんとチェックしたら公開できるようにしたいと思う。
E3-2 日本語常用漢字熟語の選好変化と自然言語処理 (pp.830-833)
○砂岡和子 (早大), 羅鳳珠 (台湾元智大)
中国台湾香港との共同研究。 不自然な言語をどう扱うかというより、教育という観点から、 発話される言語そのものをどう扱うかということについて取り組んでいる。 日本人中国語学習者がどの程度認知しているか  四字熟語、故事成語の計328語が対象  小学生対象時には、一部をひらがなに置き換えて実施   半数以上が認知できない慣用句もあり    親子関係、生活環境の変化   若年層の慣用句の誤用は年々増加傾向   情報収集はネット経由が過半数になりつつある    言葉の意味やニュアンスが変わる   入力ソフトで出てきた候補を選んでしまう 言語資源の階層  子供の言語→地域言語→広域言語→グローバル言語  音声言語→文字言語  インフォーマル言語→フォーマル言語 Q: ネット経由での情報収集が増えると、言葉の意味やニュアンスが  変わりやすくなる? 身内用語(用例)が増えるということかしら。 会場Q: 故事成語だと時代毎に変化がありそう。それらを複数登録すべきなのか。 A: どちらもありえる。両方併記の上、意味を解説するという方針もあると思う。 登壇者Q: 言語政策そのものには関心があるのか? A: Google 日本語入力作っているが、正しい日本語入力をしたいという人に  対応できるように作りたいと考えている。
E3-3 「不自然言語処理コンテスト」第1回開催報告 (pp.834-837)
○萩原正人 (楽天), 大原一輝 (フリー), 水野貴明 (バイドゥ), 橋本泰一 (東工大), 荒牧英治 (東大), 竹迫良範 (サイボウズ)
背景  ノイズの存在  実データは「(綺麗な)文法的な言語表現」の前提が崩れる 不自然な言語現象  変則的な固有表現・未知語:モーニング娘。せきじゃに  口語表現・オノマトペ・新語:本田△  異表記・表記揺れ・略語等:ふいんき(なぜか変換できない) kwsk ギャル文字  顔文字・AA・絵文字  スパム検出、不正検出  スペル訂正  etc. 不自然言語処理コンテスト  お題「不自然言語を使ったコミュニケーションを豊かにするサービスや作品、     プログラムなどを作ること」  発表形式・形態は自由  モバイルWebの形態素nグラム統計を公開   絵文字を形態素として含む   キャリア別   MeCab+IPADicにより解析 受賞作品紹介  グランプリ「Soramegraph」   Tweetのなんとかをなんとかに空目した   →空目した関係を可視化  準グランプリ「誤字ェネレータ」   ワザと類似した誤字に変換   画像の類似度を測って、割と真面目。  審査員特別賞「感情のこもった返答テンプレ生成君」   例:テンション高いテンプレ(近いもの)を利用   「飲み会行きましょう」→「是非行きましょう!」 LT賞「ケンブッリジ大学」  検索避けのため不自然な言語を使うという現象  ただし、書きづらいし、読みづらい→コミュニケーションが非活性化  →ケンリブッジ大学   文字列を画像化   文字順番は割とばらばらでも読める   「こんにちは!不自然言語処理セッションへようこそ!」   →「こんちには!不自然言語処理セシッョンへようこそ!」  単にゴミとして扱うのではなく、親密度として扱うと面白いのでは。 応募作品総評  作品傾向:絵文字挿入や不自然なことばに書き換えるもの  Perl, Ruby, Python などのLLでの実装 Q: 「単にゴミとして扱うのではなく、親密度として扱うと面白いのでは」  という視点が面白い!目的によってどう扱うかはちゃんと検討しないとね。 会場Q: 日本語以外にも、他の言語でもやり始められていることなのか。 A: 英語ではノイジーテキストを処理しようというワークショップが開催  されている。他言語でもあると思うが、英語以外では把握していない。 会場Q: ワザと不自然言語に変換するというのは他言語でもあるのか。 A: 絵文字やギャル文字の文化は、把握している限りでは日本語で文化が  進化。表現しやすいというのもあると思うが、既に文化として根付い  ているのは日本語ぐらい。 会場Q: 境界はあるのか。 A: グレーな所が多いと思う。AKB48がイレギュラーとか簡単に断じる  ことができる、そもそもどう定めるべきかから考える必要があると思う。
E3-4 ウェブからの疾病情報の大規模かつ即時的な抽出手法 (pp.838-841)
○荒牧英治 (東大), 森田瑞樹 (医薬基盤研究所), 篠原(山田)恵美子, 岡瑞起 (東大)
例:カゼミル 調査集計には時間がかかり、集計後には既に蔓延していることがありえる。 Twitterで検索クエリを人手で準備し収集  「風邪」→風邪、熱、インフルエンザ   ただし実際に流行している訳ではなく噂としての流行も拾ってしまう  「ひきそう」→願望/予防はフィルタリング  動物の症状や誤字→フィルタリング 学習器による事実/非事実判定≒スパム判定  内容(命題)の妥当性+モダリティの妥当性  条件毎にコーパスを作成し、2種類の判定器を構築   命題とモダリティ両者が正しいなら事実クラス   周辺語のBOW(window size=6が最も良かった)   ベースラインより若干改善するが、タスク毎に差もあり要調査   SVM以外も試してみたが比較的どれも良く、一番良かったのはNaiveBayse  どの程度、現実を予測できるのか   国立感染症情報センターの報告との相関係数   2008年、Googleより提案手法が若干良い結果。   2009年夏、Twitterが噂に反応しやすいのか、悪い結果に。   ピーク前後で比較すると、前は過剰反応する傾向あり。   その部分ではGoogleより傾向を取りやすい。 Q: 噂センサーとして、流行前兆についてヒットしやすい点を、単純に「命題+  モダリティ」という点で学習(フィルタリング)してもあまりうまくいかない  という結果だと思うけど、これ、人間でもうまく判断できない問題設定  (かなりタフなタスク)だったり? 何を根拠に信じるかというのは  その人の環境要因が大きく作用する面もあるだろうし、内面的な要因  が強い場合もあるだろうし。うーん。。 会場Q: ツイッターをセンサーとしてみるのは面白い。niftyでも花粉症で  似たような話をされていた。センサーとして考えると感度や地方差がある。  関西では花粉との相関が低いらしい。理由は良く分からない。 A: 花粉症も一緒にやっており、spin out してやっている。アイデアは今の所  まだないので、何かあれば。 会場Q: モダリティについて、人に直接確認はされたのか。 A: 現状の技術でリーズナブルだと思う。 会場Q: 不自然言語処理のセッションとして、言語処理をキチンとやった  場合と統計ベースとの比較はしているのか。係り受け解析とかやるより  統計解析の方が良かったのか。 A: ツイッターの場合には構文解析精度が落ちると予想し、今回は試していない。 会場Q: 文字列や文末を使うというのは。 A: 文末だけ別に加える等もできそうで、興味深い。 会場Q: ピーク前後といったことを考慮した数理モデルを用いた方が、  より精度が高くなるのでは。 A: 考えてみたいと思います。
E3-5 データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法 (pp.842-845)
○鈴木徹也 (芝浦工大)
テキストアート(アスキーアート)の抽出  行指向(複数行で構成された行単位のもの)のテキストアートを扱う  テキストアート識別法  テキストアート抽出法(範囲を判定)  空白の取り扱い   全角半角が混在。視覚的には空白だが何も無い箇所もある。   →空白の正規化手法を確認したい 言語に依存しないテキストアート抽出法  辞書や文字出現頻度を用いない  テキストアートらしさ  利用する属性   ランレングス符号化による圧縮率   行数   文字列長 抽出概要  候補範囲の決定→窓内のテキストについて識別することで範囲決定  機械学習c4.5で識別  正規化3種類+正規化無しの4パターンを比較   半角スペース統一/AA右側に不足分追加/AA左側を削除   Q: テキストアートって何らかの生成システム使ってることが多いと思う  (多分)のだけど、いくつかの生成システム自体の入出力特性を見る  ことで「テキストアートらしさ」を傾向として捉えることできたり  しないのかしら。 会場Q: 窓をスライドさせてテキストアートらしさを判定しているようだが、  アートによっては左にもキャラクタや何かしらおいてることがあるが、  一部分に窓を設定することはできるか。 A: 今の所考えていない。圧縮率を見ようとするとちょっと困難。 会場Q: どういうのが取れない、というのはあるか。ざっと見て取れるかなと  思ったが、逆に取れないものがあるのか。 A: 実験のデータでは割と取れているが、2chとかに適用すると取れないのが多い。  数式とか。 会場Q: 目標は何か。取った後で何をする? A: テキストアートの範囲だけでなく、予めテキストアートDBを作っておいた  ものと比較してどれに近いか、といったことを考えている。
E3-6 感情推定における若者言葉の影響 (pp.846-849)
○松本和幸, 任福継 (徳島大)
くだけた口語表現、多様な新しい表現(若者言葉など) テキストからの感情推定  若者言葉を既知語に変換する事例があるが、  元語が必須で、かつ変換することで微妙な意味の変化が失われる可能性。  →そのままの形で感情推定する 問題点  多くは未知語で正しく形態素解析できない事が多い  若者言葉感情コーパス(WKEC)を構築   コーパス分析するとそれなりに感情推定できる傾向がありそう 若者言葉を素性にした場合とそうでない場合とを比較  ベースラインを平均14.9%上回る精度  SVM vs. NB -> NBが高い Q: 「若者言葉を素性にしない場合」というのは形態素解析失敗結果を  そのまま素性にした場合? N-gram素性とどっちが良いのかな。 会場Q: 若者言葉感情コーパスに関して。(1)作業者2名は若者だったんでしょうか。  (2)そのコーパスを公開する予定があるか。 A: (1)私自身+学生。(2)公開したいと思うが、個人名が多く入ってたりするため、  整理してからの予定。 会場Q: 若者言葉が入っていることを検出する際、mecab辞書として登録した?  別処理で対応? A: コーパスに付与している若者言葉をそのまま素性とした。誤り分割結果に  ついて観察した結果、形態素解析結果は使っていない。 会場Q: 感情を13種類としたのは何故? A: 心理学での分類を考慮しつつ、増やしている。 会場Q: クラスが増える程当らなくなる、一致しなくなると思う。例えば怒りと  嫌悪は近いとかあるのでは。 A: その通りで、人によっては怒りと捉えたりという差異が見られた。  タグ付与者は別々に作業した。 会場Q: 若者言葉に感情表現が多く含まれているというデータは何かしら  あるのか。そうでないと、今回は単にそこにタグを付与したから  うまくいったという結果でしかないと思う。 A: そういうデータは今の所ない。 会場Q: そこの検証をしないと、若者言葉に着目した方が良いという  根拠としては不十分では。 A: その通りで、今後分析していきたい。
E3-7 教師付き外れ値検出による新語義の発見 (pp.850-853)
○新納浩幸, 佐々木稔 (茨城大)
対象単語の用例集から、その単語が新語義となっている用例を検出したい。  辞書の拡張、管理。  仮説:新語義は用例集内の「外れ値」になっているだろう  →外れ値検出 LOF(Local Outlier Factor) 大きく外れている値だけでなく、近い外れ値も取りたい。  単純は外れ値ではない。  新語義の場合は定義可能なので「教室付き」外れ値検出  識別の信頼度は無益でクラスタまでの距離を考慮する必要あり   教師付きLOF+LOF値の大きい上位を対象   教師データがあってもクラスタ分布が未知。マハラノビス距離は意味が無い。   距離だけでなく分散も必要   →重心を利用した外れ値の度合い 実験  SemEval-2 日本語WSDの48単語  与えられた語義に該当しないものもある  2400用例中16用例が新語義   F値: LOF=LOF+OneClassSVM<OneClassSVM<教師付きLOF<提案手法   基本的に低い  誤検出の原因   特異用例(誤り、専門用語):「そんな時間必要ないけど」   書き誤りに近いもの:「私が子供産んだとき」   距離の差がほぼ同等   パラメータの問題 Q: クラスタリング(ベクトルやクラスタ間類似度)じゃなくて、  別のアプローチが考えられないのかしら。教師データを設定  しやすいというのは大きなメリットだと思うし。 会場Q: 使ってる素性は? A: WSDで使う一般的な素性。 会場Q: そうすると、未検出が多い場合にはその素性が役に立たないのか、  距離計算の方が問題? A: 素性の方が問題。多分、無理なんじゃないかと。素性が悪いと距離も悪くなる。  今回の用例では偏りのあるタスク過ぎるというのもあるかしれない。
E3-8 定型から逸脱した言語表現の分析 (pp.854-857)
○土屋智行 (京大/学振)
定型とは  複数の語が様々な組み合わせで慣習化し、定着したもの。  あらゆる語のあらゆる組み合わせが存在   字義的な意味と異なる場合、解釈すら難しい場合(手を焼く)  定型は頻繁に破られる   例:「鬼に金棒 弁慶に薙刀 ローソンにATM」   →前段無くても意味は分かる。    人は、逸脱表現の「元表現が何なのか」を特定し、    「意味的な差異」を理解できる    →定型の逸脱表調査とその分析 どれだけ逸脱しているか(逸脱バリエーション) 元形式がどれだけ保持されているか(定型的な表現の特徴)  「NP1にNP2なし」の表現4例  Sketch EngineのJpWaCコーパス(ウェブコーパス)から抽出   元表現より逸脱表現が多いものも、逆傾向もあり。   Pattern Lattice Builder (PLB) で分析    組み合わせ抽出ツール    パターン生成し、説明力のある接続ノード数を調査 様々な逸脱用法があるが、
話者にとって逸脱しやすいパターンとそうでないパターンに偏りがある。 元の表現を喚起しやすいパターン等への分析へ。 Q: 「定型は頻繁に破られる」の破られ方をパターン的に調査しているが、  PLBのような定型化しやすいパターンでは補えない(見過ごしている)が、  人間だとパターンとして認識しやすいものって無いのだろうか。  例えば「いとをかし」とかは単体じゃなくて別の文と一緒に使うことで  初めて違う意味を持たせる、みたいなものだろうし。ただの多義語? 会場Q: 考察対象にしたのが元表現の形態素のみを含むパターンになっているが、  そうではないパターンでかつある程度の頻度が高いものがあったとしたら、  どういうものがあったのか。 A: 例えば「触らぬ神に祟りなし」だと「神」が変えられている例が多数が  ある一方で、異表記パターン(祟り、たたり)もあった。 会場Q: 検出を考えると、そういうのがあるなら、元表現と同じではない  逸脱パターンを見つける方向にいけるのではないか。 A: 可能性としてあることは認識しており、今後考えていきたいと思う。
B4:対話・文脈処理
3月10日(木) 13:00-15:30 A2-101教室  座長: 駒谷和範 (名大)
B4-1 POMDPを用いた聞き役対話システムの対話制御 (pp.912-915)
○目黒豊美, 東中竜一郎, 南泰浩, 堂坂浩二 (NTT)
聞き役対話  二者間の発話で一方が聞き役、多方が話役という役割を持った対話  聞き役は相づちだけではない  質問したり自己開示(自分の意見)したりして、発話を促す、引き出すことが重要  「聞いてもらいたい」という欲求を満足させる 発話理解部+対話制御部(対話履歴)+発話生成部  今回は対話制御について。   例)ノンバーバルな聞き役(ジェスチャー)    →言語表現でやる POMDP: システム・ユーザのインタラクションをモデル化(する機械学習)  報酬(あるアクションの結果の望ましさ)の平均値を最大にするアクションを選択  ただしタスクが明確でない対話への応用例はない  →ユーザ満足度+自然性の二種類の報酬を導入   DBNでシステムとユーザの振る舞いをモデル化   アクションに報酬を与える構造(POMDB)に変換    HMMやEvenPOMDPより高評価 Q: 制御部の話だから出力をどう生成するかについての話がなさそうなんだけど、  強化学習するには出力が必須なはず。文選択させるとかで疑似出力に  してたりするのかな。  →カテゴリ 会場Q: 満足度と自然性の両方を定義したとのことだが、バランスも重要では。  そこも強化学習の枠組みでやっているのか、単純に5部5部なのか。 A: 足しているのだが、重みは数パターン試した上で調整した。そもそも異なる  スケールなので、単純に重みとして言えるかは分からないが、  満足度:確率で確率の方が4,5倍して、同じぐらいになるように調整してある。 会場Q: 何を評価しているのか良く分からなかった。シーケンスを評価している? A: 本当に評価したかったのは対話行為の列だが、人手で対話文を生成した上で  評価した。 会場Q: そこはくせ者で、何を「自己開示」にするかがコントロールされないと、  何を評価しているかが分からないのでは。 A: 文生成にはルールを決めた上で、キーワードを埋め込む形で生成。  いくつかルールがあるが、そこからの選択は人手になっている。 会場Q: そこをコントロールしないと、どちらが効いているのかが良く分からない。 A: 16人に生成してもらった上で評価しており、  ある程度ならされた評価にはなっていると思う。 会場Q: 対話行為を自然文になおすというのはとても難しい。コーパスに対して  スコアリングしていて、一番右側の文を自動生成できない理由は? A: 今回の学習は対話行為列をアノテートしたものを使っており、  出力は対話行為までが限界。 会場Q: そのままだと汎化しすぎているように見える。
B4-2 対話型e-Learningシステムの開発 (pp.916-919)
○峯脇さやか (弓削商船高専), 嶋田和孝, 遠藤勉 (九工大)
優れたIT人材  ITに関する知識や技術を持ち、コミュニケーション能力がある  e-learningは基本的に一人で取り組むもの   孤独でモチベーション維持困難   うまく質問できない   →システムに質問しながらe-learningコンテンツに取り組む    学力向上+質問する力(決まり文句を身につけた上で) 発話理解は簡単なパターンマッチング(決まり文句を身につけさせるため意図的) 想定される質問の分析  システムが受け付けるもの→ヒントを与える  それ以外→受け付けない  対話の流れをモデル化 Q: 質問する時の決まり文句より、質問対象をどのように捉えて、どこを  聞こうとしているのかを明確にするところの方が大切な気もするが。  「動かないんですけど」「何が?何をどうやった?」とかそういう  意味では別セッションであった質問支援システムの方がやりたいことに  近いのかな。 会場Q: このシステムだと、仰れた通り質問する力は身に付くと思うが、  自分で調べる力を付けることにも考慮して欲しいと感じた。質問ですが、  ルールの生成にはどのぐらい時間がかかったか。全体のスクリプト。 A: 今回のは課題26個、小問題が各々2〜4つ。学生数人に取り組んでもらって  約2ヶ月。 会場Q: 直接人間が教えるよりもコストが低くなる方が望ましいと思うので、  省力化できるように考えた方が良いだろう。 A: スクリプトの自動生成を検討中。 会場Q: 限られた文しか認識できないとのことだが、その文は生徒には  示しているのか。 A: こういう質問したらいけるよといったアドバイスはしたが、  マニュアル提示まではしていない。 会場Q: マッチしない時に「受け付けていない」だけではユーザが頑張れないのでは。 A: 学生のアンケートで読み取りに式結果が余り良くなかったという意見はあった。  そこは良さそうなソフトを使うぐらいの話。認識誤りがあってもまだ  ポジティブに受け止められている。
B4-3 共通状態と連結学習を用いたHMMによるコールセンタ対話の要約 (pp.920-923)
○東中竜一郎, 南泰浩, 西川仁, 堂坂浩二, 目黒豊美, 小橋川哲, 政瀧浩和, 吉岡理, 高橋敏, 菊井玄一郎 (NTT)
コールセンタ対話  比較的短くくて120発話(一般に5分程度だが、1時間とかのもかなりある)  オペレータの振り返りが困難   監督者による業務内容把握が困難のため、改善に繋げられない  抜粋してどういう対話があったかが短時間で把握できる要約を生成したい   ルール生成型ではコストが高く、ポータビリティが低い アプローチ  自動学習  コールセンタ対話の特性を利用   量が大量   多くのドメインの対話を扱うことがある    故障受け付け、引っ越し、契約、、、(数十〜数百個)   各対話にはドメインラベルが付与済み   →各ドメインに特徴的な発話系列を抽出して要約生成 各発話にドメインラベルを付与し、該当ドメインに特徴的な発話のみを抽出  個々ドメインをモデル化→エルゴディックHMM   個々ドメインから学習したHMMを等確率で接続   そのままでは「確率が高い方」のみが選択   →全てのドメイン(ドメイン0)から学習したHMMも足してやる    しかし平均になるためほぼ利用されない    →連結学習の導入     ドメイン0+ドメイン1で再学習、ドメイン0+ドメイン2で再学習、、     を繰り返すことで連結学習。     再学習ではEMアルゴリズムにより、よく出現する発話の確率が高まる。     結果として、ドメイン0側では共通的な発話の出現確率が高まり、     選ばれる確率が上がる。      少ないデータからでも効率的に学習可能 Q: ドメイン別の学習をしつつ、全体としてどう組み合わせるかのバランスを  再学習という形で補うのは面白いと思うが、後からやるのではなく最初から  マルチクラスとしての学習をするのとどちらが効率&精度的に良いのだろう。 会場Q: (1)コールセンタのオペレータにとっての振り返りには良いが、  業務改善については繋がらないようにも感じた。改善に繋げるのに  どういう要約を検討しているか。  (2)発話シンボルに変換して学習するとのことだが、挨拶ぐらいの尤度だと  どのドメインでも変わらないように思う。どのぐらいの値か。 A: (1)直接的に改善に繋がるかは分からない。まずはブラウジングを  想定している。重要な部分のみを見つけやすくすることで間接的に  役立つと考えている。(2)発話シンボルは今は100にしている。  いくつか試した範囲ではこれが適当だった。 会場Q: 解約したいという場合にはどういうイベントなのかがマークされていたが、  実際に欲しいのは「どういう理由で解約したいと考えたのか」  といったところでは。そういうのも取れてくるのか。 A: 難しい。目的がおおよその発話内容を把握可能にすることなので、  特徴的なものが出てくるところまで。個々の詳細については、  その後の話で、今は入り口としての形を考えている。 会場Q: それだとカテゴライゼーションと同じに見える。 A: カテゴリではなく、客が満足したとかしてないといった場合に、  その対話の特徴を取れるという可能性がある。もう少し工夫が必要だとは  考えている。
B4-4 コールメモを利用したコールセンタ向け音声対話要約方式の提案 (pp.924-927)
○田村晃裕, 石川開 (NEC)
コンパクトな要約テキスト(音声)のニーズが高い  アブストラクト型/抜粋型  教師データの有無  →教師データを使用しない、抜粋型要約   tfidf法:業務上必要箇所と一致しない。頻出する要件が含まれない。口癖が含まれる。 コールセンタのニーズにあった要約生成  蓄積されたコールメモを利用し、要約に含める。  使い方に工夫が必要   ベースライン:MF法(出現頻度が高い箇所を抽出)    通話とコールメモでの表現の不一致を考慮できない   提案手法:AS法    通話とコールメモの単語の相関を用いて表現不一致問題を解決    各単語の重要度=同一内容らしさ*コールメモにおける重要度   不要発話削除の導入    「はい」「えー」「○○コールセンタです」    発話出現頻度が閾値以上の発話 Q: 抽出したい「重要語やそれを含む文」にもケース次第で大きく異なる  というのは面白い。汎用的にパラメタライズで「こういうケースの重要語」  というのを抽出しやすくできたりするのかしら。 会場Q: 二つの軸でindicative/informativeとのことだが、同じものに対して  2軸で評価した? A: infomativeは通話内容を漏れなく含む要約で、60%ぐらいに圧縮されたもの。 会場Q: F値が0.5ぐらいというのは、どのぐらい良いと思うのか。直感で。 A: 書き起こしに対して0.5ぐらいだが、実用に堪えうるかなというレベル。  音声認識誤りが含まれると、誤りを含む形で要約してしまうため対応が必要。 会場Q: 書き起こしを使うというのは実用としては考え難く、それぐらいなら  コールメモが良い。如何に精度を上げていくか。音声認識誤りの対策として  どういうことを考えているか。 A: 音声認識結果を良くしようというスタンスではない。誤りが含まれた  要約テキストを見せてしまうと分かりづらいので、音声を聞くことで  要約されたテキストの音声を聞くことで人間側で補正できるかなと考えている。 会場Q: 音声認識の精度はどのぐらいなのか考えてないとのことだが、  仮に100%だとした場合の評価があれば。 A: そのつもりで書き起こしで評価を行った。
B4-5 Toward Plan Recognition in Discourse Using Large-Scale Lexical Resources (pp.928-931)
○Naoya Inoue (東北大/学振), Kentaro Inui (東北大)
談話の背後には登場人物の目的達成のためのプランがある そのプラン(goal-means tree)を文章から自動的に生成する 談話解析には世界知識が必要だが、昔は利用できるものが殆どなく、 研究としては廃れてきた  今ではFrameNet, WordNet等の大規模な世界知識が利用できるようになってきた  →やってみよう! プラン推論のモデル  談話から合理的な説明を求める→説明から目的/手段の関係を抽出  説明を求めるとは   仮説推論 abductive inference    背景知識Bと観測Oから最小の仮説Hを求める推論    細小にも色々ある:ここでは可能な仮説の中でリテラルが最小のもの   →知識ベースに目的/手段関係も埋め込み、推論できるように工夫 知識ベース  既存の知識を変換したもの   同義語、上位下位等:数百万オーダー   極性知識:数万オーダー  人手でエンコードしたメタ・ナレッジ   一般的な知識 知識ベース充足性の確認実験  人手で同定した仮説推論まで辿り着けるか、推論パスを埋めることができるか  77.4%のアクションに対して埋めることが出来た   そのうち半分はメタ・ナレッジを使う必要あり  失敗例の多くは固有知識が不足(カビキラーは何のために使うのか) 語彙知識はそれをどう使うかを考える段階であって、既に十分にある。 推論ルールが重要な役割を果たしていた Q: メタ・ナレッジ部分が結構効いているようだけど、この部分はどのぐらい  質・量を用意したらどのぐらいの精度が出るか、といった目安はあるの  かな。他との兼ね合いだというのは分かるけど、応用した結果を評価する  のではなく、知識ベースそのものを評価するという意味で。 会場Q: 計算量はどれぐらい? A: 仮説推論をやって、最小仮説推論求めるのはNP-hard。 会場Q: 今後どういう方向を考えている? A: 将来は重み付きabductionがあり、それを考慮しつつ自動化していきたいと  考えている。 会場Q: ドキュメントはどんな文?ドメイン的な意味で。 A: 家事。 会場Q: 足りない知識は、ドメイン依存だと思う。こういう知識が  足りているのかという意味でいろんなドメインを試してみる必要が無いか。 A: 固有名詞に対する知識が足りていない。様々なドメインで出てくるだろう。  どんなドメインでやるにせよ獲得する必要あり。 会場Q: 正しくない解釈が得られる可能性もありそうだが。 A: 今回は別の問題として考えていて、今回は正しい説明が入ってくるかを  考えていた。正しくない候補が入ってくる可能性はでてくると思う。 会場Q: より小さくて、正しくない候補が入る可能性。 A: 確認してみたいと思う。
B4-6 視線情報を利用した協調作業対話における参照解析 (pp.932-935)
○安原正晃, 飯田龍, 徳永健伸 (東工大)
人間と協調作業を行うシステム  参照表現:参照解析+参照表現生成  対象は参照解析(視線情報)   人間が無意識に生み出す情報のため負担が少ない 参照表現コーパス  協調作業対話コーパス:参照表現に人手でアノテーション   発話テキスト、ピースやマウスの位置など 参照解析手法  特徴ベクトル→ランキング・モデル   素性:談話履歴情報10個+オンマウス情報6個+操作履歴情報6個+視線情報6個   注視:100ms以上留まった場合。連続した視線位置の重心。   抽出区間毎に3つの素性を計算   予稿集には結果に誤りがあり、より高いスコアが出た Q: オンマウス情報使ってるなら視線情報要らないんじゃと思ったけど、  何故精度改善に貢献したのだろう。数値化することにトリックがあるのかな。 会場Q: 視線情報とオンマウス情報は近いように思うが、どのぐらい一致するか。  改善したということはオンマウス情報より情報量が多いようにも思えるが、  履歴の有無が関係しているのか。 A: (1)視線情報とオンマウス情報の違いについてはまだ未解析。(2)オンマウス  情報には履歴が効いていなかったのではという点ついては、  それらを用いない場合でも殆ど精度が変わらない。 会場Q: 代名詞の場合は下がりますよね。代名詞の時と非代名詞の時の違いが面白い。 会場Q: 視線情報はどのぐらいの区間や時間で参照したら良いのか。  広過ぎてもピンポイント過ぎても扱いが困難だと思うが。 A: 今回は決めうち区間で試した。1300msとしたのは、  平均して高いスコアが出る区間だったため。
B4-7 直接照応解析における分野情報および文脈情報の有効性検証 (pp.936-939)
○浜田伸一郎, 齋藤佳美 (東芝ソリューション)
直接照応解析  ある談話要素が指す、同一の事物や意味を持つ、他の要素を推定する技術   先行詞->照応詞  曖昧な語を具体的な語に置換したい(例えば要約)   直接法/全体法:両者とも欠点   表層一致ペア/表層不一致ペア    語彙分布は類似    語彙的関係は異なる    割合は:一致ペアは70%、不一致ペアは30%程度の差    →混合法     直接法同様、表層不一致ペアの解決が目的     ただし語彙分布の特徴で補完 表層一致ペア→表層不一致ペア  転移学習+表層一致ペアで用いられた語の頻度利用  文脈的素性:表層・意味が一致する近傍の表層一致ペア数  →両者とも改善に寄与 Q: TLみたいな「他人のツイートや話題」に対する照応みたいなところにも  使えるのだろうか。 会場Q: 効果のなかった素性はあったか? A: 今回提案した素性以外は標準的なものを用いて、  試した範囲では比較的有効であった。 会場Q: 要約に使えるという例は分かりやすかったが、  新聞記事にやるという場合でも同じ問題になるのか、差があるのか。 A: これは新聞記事の例で、同じ。 会場Q: 今後の部分一致しているのとしていないのとでどれぐらいの差があるのか。 A: 機械学習の重みとしては表層部分一致は結構重みが大きく、有効だと思う。 会場Q: 部分文字列で失敗するケースでは、ある程度予測がつくと思うが、  それは素性では含まれているか? A: 例えば表層が同じでも意味が違う場合には、意味の所で棄却できると思う。 会場Q: 意味素性でも同じでは? A: 意味素性では異なる。
A5:教育応用
3月10日(木) 15:50-18:20 A1-101教室  座長: 田中久美子 (東大)
A5-1 学習指導要領に立脚した児童作文自動点検システムの実現 (pp.1045-1046)
○藤田彬, 田村直良 (横浜国大)
文章の自動評価が必要となる場面が年々増加する見込み  記述式を含むe-learning/小論文試験/作文指導  労力的な問題  評価基準が安定しない 自動評価  要約の評価はあるが文そのものの(日本語は)評価はあまりない  e-rater: 重回帰モデルで採点  Jess: 理想小論文を手本とする方式 学習指導要領の指導事項のモデル化  指導事項の分類   「B:書くこと」の「構成」と「記述」   点検:不適切と思われる箇所をマーキング(修正まではやらない)   独自分類:構文/結束構造/修辞・構成/モダリティ/etc.  教師による点検事例の解析  点検モデルの構築 Q: 絶対的な基準として学習指導要領を上げていたけど、そこからモデリング  (独自分類)している時点で「モデル者の主観」が入り込んでる気がする  のだけど、大丈夫なのかな。 会場Q: 作文データを入力して指導要領に合致する/しないのエンジン部分が  最も困難な箇所だと思うが、どう考えているか。 A: 既にあるシステムという点では、文法的な語彙チェックは例がある。  文章の構造構成を採点するというところが大きいが、ここに関しては未検討。 会場Q: (1)児童作文対象だと綺麗じゃない文だらけで、形態素解析だけでも  かなり大変だと思う。(2)自動点検ではなく、本当に間違ってて指摘すると  大変だと思うので、その前に先生が見る時にアシストするシステムを考え、  そこから次に進むと良いのでは。 A: (1)作文点検する前に、助詞誤用等は洗い出した上で、利用を想定している。 会場Q: 提案だが、作文授業で起こりそうな例として、一部の生徒が何も手が  進まない。児童生徒が書いたものがあって初めてシステムが動くようだが、  何も書けない状態の児童をどう支援できるかという点も検討されては。 A: 実際その通りだと思う。 会場Q: 対象が小学生の作文とのことだが、小学生にPC使って作文させると  不感になると思う。実際に書くことが大事では。 A: 仰る通りだと思う。一番良いのは余り綺麗ではない文字でもそれを  認識するシステムがあると嬉しい。 会場Q: 児童の書いた作文を機械が採点する/点検するということで良いのか。  教師をアシストするのがあるべき一つの所かなと思う。あれもこれもやりたい  ではなく、実際の教育現場で機能するのは何か、を考えては。 A: ありがとうございます。 会場Q: 作文教育のe-learning事例だと思うが、e-learningを考えると  何も考えずにデータが蓄積され、それを利用することが有効にはならないか。 A: 個人個人の傾向掴めたら良いなと思う。
A5-2 非日本語母国話者の作成するシステム開発文書を対象とした助詞の誤用判定 (pp.1047-1050)
○大木環美, 大山浩美 (NAIST), 北内啓, 末永高志 (NTT), 松本裕治 (NAIST)
仕様書の品質向上が必要  ツールによる自動化支援  チェックすべき事項の調査   修正前後の文書セット   誤り割合:文法52%、語句26%、、   →助詞の誤用判定 機械学習による誤用判定+素性改善  対象文書:非母国語話者の仕様書  素性生成手順   基本:形態素解析&構文解析+固有表現正規化+助詞前後3単語の原形+係先 4つの改善案  助詞が不要な箇所を判定するための学習事例がない  →全体として悪化しないよう、出現しないであろう箇所のみ学習事例を追加  原型しか使っていないため違いが判定できないことがある  →単語の活用形情報追加  素性列がスパースになりやすい  →単語と品詞を独立の素性として扱う  前後3単語と係先以外の有用な情報が素性に反映されない  →同じかかり先を持つ助詞の追加   実験より全組み合わせ時が最も良い精度を示した Q: 招待講演で話題があった「企業毎のガイドライン」と比較してどちらが  より優先順位が高いのだろう。そもそも開発も海外にやらせるなら仕様書  を日本語で書かせることの意味が良く分からないというのもあるけど。 会場Q: データについて。中国人技術者の書いた仕様書のようだが、清書する  ことがあるのだが、日本語能力試験でN1レベルとN2レベルがあって、  英検1級2級ぐらいの差がある。もともとどのぐらいの日本語入力レベル  の人が書いたかによって変わらないか。 A: そこは調査は行えていない。それなりに幅があるということは聞いている。  他の研究例でもあるが、日本語能力が高い方については余り間違えないので  誤用判定しても「正しいものを誤検出した」という話があるとのこと。  今後検討したい。 会場Q: 前提のエラータイプについて。翻訳の関係で実際に営業でクライアント  と話すと、気持ち的に耐えうるものとそうじゃないものがある。安ければ  良いレベルというのがあるらしい。助詞エラーの中で、クリティカルなものと、  そうでないものがどれぐらいあって、どれぐらい対処できたのか。 A: その問題は起きており、70%ぐらいはなおした方が良いだろうというもの。  30%ぐらいは好みの問題レベル。そこは誰が書き直すかが問題になる。  ただし仕様書としては統一した用い方をした方が良い。仕様書の品質を  高めるという目的のため、誤用として扱っている。
A5-3 翻訳教育向け「みんなの翻訳」 (pp.1051-1054)
○影浦峡 (東大), Thomas, Martin (Leeds大), 阿辺川武 (NII), 内山将夫, 隅田英一郎 (NICT), Hartley, Anthony (Leeds大)
翻訳教育  現場では教員にまかされており、やり取りやログが共有されていない  過去の記録を活用できていない  →やり取りの体系化   「みんなの翻訳」は自立した翻訳者・グループ向け   基本的に自分でやろうとする初心者向け   →よりきめ細かい対応 共同翻訳プロジェクト →関与する要素とプロセスの定義を洗い出し  複数の人が関わり、比較的複雑な会話セッション   テキストエンティティ:文書集合/個別文書/テキストスパン   参加者の役割:翻訳者/修正訳者/レビュア/アドバイザ/ターミノロジスト   やりとりのタイプ(仮):要求/通知/説明/解決/激励/感謝  やり取りを作業プロセスに位置づける   文書集合レベルを巡るやり取り   個別文書レベルについてのやり取り   テキストスパンをめぐるやりとり   →まだバランスが良く分からず    教育目的としてはある程度統制した方が良いが、    統制し過ぎても教育効果が薄れる等、要検討が必要。 翻訳教育向け「みんなの翻訳」は2011年7月に公開予定 Q: ユーザビリティとかではなく、統制バランスが教育効果にも影響を及ぼす  というのは考えたことが無かった点。うまく評価する方法があるのか、  そもそも利用者のレベルによっても異なりそう等現場でカスタマイズ  せざるを得ない部分も少なくないのかな。 会場Q: (1)ブロックで翻訳の修正等議論が行われいるようだが、議論結果を  共有する仕組みはあるのか。(2)作業者の問題で、修正翻訳をする人/チェックを  する人を必ず用意する必要があるようだが、対象言語力が無いと人員確保の  問題が無いか。 A: (1)修正カテゴリタイプでコントロールした上で、インスタンスをまとめる。  それ以降については言語処理的なメカニズムでフリー記述・討論を  まとめられると、半分自動化できることを期待している。  (2)リバイザは原文を見て修正する。レビュワーは翻訳された対象文だけを  みて修正する。翻訳教育の現場では必ず全ての役割と異なる人がやる必要  はない。関わった方が教育効果が高いというのもある。役割分だけ異なる人を  準備する必要は無い。日本とは異なる事情として、欧州ではかなり学生数が  多いためそこは問題になり難い。 会場Q: このシステムは、学校に配布して教室の中で、その場で使う?オンライン? A: その場に居て使うシステムとして設計している。 会場用Q: ペアプログラミングというのがあるが、それを如何にシステムで  補助するかという話がある。 A: 参考にしたいと思う。
A5-4 Stativity判定に基づいた時制誤り検出 (pp.1055-1058)
○永田亮 (甲南大), Vera Sheinman (教育測定研究所)
シンプルな方法:コーパスから現在/過去/未来を判定する分類器を構築  困難  →Statiity判定する分類器を構築 発音してみよう  I read the book.→過去を示す表層情報は無いのにレッドと発音  何かが隠れているのでは?  →Stativity: 動詞の分類   動作動詞/状態動詞   動作動詞:現在の動作に対して単純現在を使用することは制限を受ける  単純現在の動詞抽出   動作動詞なら時制誤り   →どうやってStativity情報得るか?   →単純なif-thenで決めうちして良いのか? コーパス→学習データを人手で作成
 Stativity判定を行うME分類器   動詞毎に分類器を作成  現在形で使用できる動作動詞   習慣的動作/一般的真理/未来の確定した予定/「時」「条件」を表す副詞節中  →先行研究と比較して検出率&検出精度共に高い(6割弱) Q: 実は例文で「リードとは読まない」というのが納得できていなかったのだけど、  制限を受けるだけで可能性がゼロだという話ではないということでやや納得。  ただ、その例外規定がこれで十分なのかが良く分からず。実際問題としては、  結果見る限りは「これで多数は問題無い」ということらしいけど、  まだ検証例が少ないだけじゃないのかな。 会場Q: Stativityという概念が効果があるというのは直感的にも分かる気が  するが、分類問題では置き換えただけになっていないか。うまくいかな  かった方は3値分類でやっている。 A: 1分類としてやればできるという可能性もあるが、まだやれていない。 会場Q: 時制誤りについて、副文で時制一致がいる例というのはどういうのがあるのか。 A: 主となる動詞と副文となる動詞は、そんなに強い制約ではないと考えている。  ただ、よりうまくなるケースとしては使えると思う。 会場Q: Stativityを現在/過去に置き換えると同じ問題になるような気がしている。  前後3単語でME決定していたが、人間がやるとどのぐらいなのか。 A: 一般の新聞だと分からないが、教育用問題では典型的な用法が多く、  それについては迷うことは無い。分からなくて除外したものもいくつかある。  アノテーションは一人でやってしまった。 会場Q: 書き手に何かフィードバックをかけることは可能なのか。 A: どこが違うよと示すだけでも役立つと思う。具体的なところはこれから考えたい。
A5-6 最大クリーク探索に基づく特許検索履歴の統合 (pp.1059-1062)
○乾孝司 (筑波大), 難波英嗣 (広島市立大), 橋本泰一, 藤井敦, 岩山真 (東工大), 橋田浩一 (産総研)
特許に関連した先行技術調査 先行技術調査における集合知の循環  →先行技術調査の生産性を持続的に高める   注釈や検索履歴を循環させて利用するために辞書作成    今回は履歴&検索質問からどう辞書を作るかについて 入力支援:OR質問 辞書構築:関連語辞書 検索はAND/ORを組み合わせるが、OR質問への入力を支援  例:(半角Web+全角Web+ウェブ) * サービス    (A+B+C)*(D+E)    頑張ってやる部分、連想をサポート  シソーラスでは概念粒度の違い、良く分からないものがあり、サポートしづらい  →蓄積される履歴を利用 検索意図により「関連」の意味合いが異なる  観点に基づく構造化   例:観点1(認証:画像、指紋、)、観点2(音:音楽、サウンド、、) IPCCで行われている方法
 OR部分の共通性に基づく統合・登録処理を繰り返すことで関連語を増やす  履歴と共通部分が多いなら加える  どの検索者が入力した履歴かを問わないため、ノイズになる可能性。  →さらに他検索履歴も参照し、エビデンスを確保(履歴中でOR結合している場合だけ登録)。   IPCC法はincremental、エビデンス利用だとbatch処理   →履歴情報を単語グラフ表現+最大クリーク探索(極大クリーク列挙) Q: データをグラフ化→最大クリーク探索という問題への落とし込み方が面白い。  観点をどう求めるかは良く分からなかった(クリーク=観点?)けど、  条件緩めることでいろんなことに応用が利きそう。 会場Q: クリークを使った利点を教えて欲しい。普通なら確率とかでも良さそうだが。 A: 元々の問題設定としては、クリークを見つけないと制約を満たせない。  確率的なやり方もあるかもしれないが、今回は見つけていない。 会場Q: 完全クリークのみ? A: 擬似的なクリークは取っていない。ただし、若干観点を分け過ぎている  ようにも見えるので、制約が強すぎるかもしれない。
A5-7 テレビスポーツ番組におけるリアルタイム字幕の特徴 (pp.1063-1066)
○福島孝博 (追手門学院大)
テレビ番組の字幕  Open vs. Closed Captions  生でない番組への字幕:ほとんど付与  総務省方針:2017年度までに生番組まで拡大  典型例としてスポーツ番組   サッカー:4名登場(実況アナウンサー、解説者2名、ピッチレポーター)   大相撲:3名登場(館内アナウンス、呼び出しはもともと字幕対象外)  字幕   1,2行30字程度   話者を色分けする傾向 固有名詞  基本的に省略せずフルネーム  サッカー:海外選手は文字数多いためか、字幕として生成されないことが多い  大相撲:字幕者にもよるが、発話以上に名前が生成されることが多い 発話速度  サッカー:発話が早い、字幕が出ていない時間帯あり(追いついていない)  大相撲:比較的ゆっくり、一部で要約率1.0を越える(リスピーク方式) 字幕の問題点「泣き別れ」  「青いユ」「ニホーム」   サッカーにて8回、大相撲で0回 今後  情報保証のためのテレビ字幕のあり方を明らかにする オーストラリアの例  ノーマルタイプとヒアリングタイプを選択できる(差は良く分からなかったが) Q: 米国だとかなりがっちりリアルタイムでもタイプしまくられているよう  だけど、そっちでは情報保証をどう考えているのかな。あと、そもそも  文字だとなかなか理解できないケースもあるらしいので、よりリッチな  サポート方法というのはまだまだ考える余地が数多く手つかずになって  いるのかもしれない。 会場Q: ワンセグで字幕見てると納得いく話で、興味があるのは聴覚障害者  への要約費。健常者と一緒に授業受けたいとか。TVに絞っている理由や、  他への応用について何かあれば。 A: 聴覚障害者への情報保証の話をするといろいろあるが、TVならTVでの制限  などを考えていく必要がある。どういう字幕ができるかという点で調べている  段階。情報保証としての字幕であるべきで、人権問題にも関わってくる  デジタル時代の対応問題。リアルタイム番組におけるあるべき姿を模索している。 会場Q: 現状のTV字幕で遅延時間については何か調査結果があるか。 A: TV局に聞くと良いと思うが、ある程度以上遅れてはいけないという  ガイドラインがある。サッカーでは完全に遅れている。ある程度の時間で  区切って出している。