Archive for the ‘研究’ Category

NLP2011, 本会議2日目終了(セッションB2: Twitterと言語処理)

水曜日, 3月 9th, 2011

NLP2011、本会議2日目(一般講演セッション1つ+招待講演1つ+特別講演1つ+ポスターセッション1つ)。

目標だけでなくアプローチも手段も多岐にわたる話が多くて脳みそが崩壊しそう。ブログにまとめた分だけでも後でKJ法するだけでもかなりの知識が必要になりそうだ。まだ大会途中だけど、やっぱり参加して良かった。

ということで、以下、本会議2日目のメモです。

目次
B2: Twitterと言語処理
 ・Wikipediaのカテゴリ階層を利用したTwitterユーザのカテゴライズ手法
 ・マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案
 ・Twitterからの個人の行動に起因するトラブル予測システムの試作
 ・マイクロブログサービスの返信行動に着目した投稿及びユーザの分類
 ・Twitterユーザの属性判別によるスポーツ映像の自動要約
 ・Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出
 ・パネル討論: 各パネリストによるショートプレゼン+討論お題+会場質疑応答という構成
  ・Twitter連携サービスの変遷: 横田 真俊(Twitter解説書著者)
  ・TwitterのStreaming APIを使ってネタ集め: 辻村 浩(沖電気工業株式会社)
  ・ソーシャルセンサーとしてのTwitter: 榊 剛史(東京大学)
  ・自然言語処理屋から見たTwitter: 岡野原 大輔(PFI)
  ・「ツイちぇき!」開発における取り組みと課題: 大角 知孝((NTTコミュニケーションズ株式会社)
  ・お題1:Twitterは他の言語処理と比べて何が違うのか。
  ・お題2:Twitter情報活用したサービスは色々ある。それらにおける課題や注意点。
  ・お題3:今後期待されるようなサービス/技術。どういうアプローチが面白そうか。
  ・会場質疑応答
招待講演2: 「実務翻訳の現状と未来」講演者 田中千鶴香 氏(日本翻訳連盟理事・日本語標準スタイルガイド検討委員長)
特別講演: 「表現から意味へ:言語処理技術と言語の科学」講演者 辻井潤一 氏(東京大学大学院,マンチェスター大学教授,英国・国立テキストマイニングセンター 研究担当ディレクター)
P3: ポスター(3)





B2:テーマセッション4: Twitterと言語処理

B2-1 Wikipediaのカテゴリ階層を利用したTwitterユーザのカテゴライズ手法 (pp.448-451)
○放地宏佳, 鶴田雅信, 酒井浩之, 増山繁 (豊橋技科大)
ユーザ推薦のために公式用意されたカテゴリ数は8種類。 母数と比較してあまりにも少ない→客観的な判断に基づいたユーザ分類 発現内容に基づくカテゴライズ  新語が多く形態素解析困難  既存シソーラスでもカテゴライズ困難  →Wikipedia利用してカテゴライズ 特徴誤抽出のための前処理  ユーザ名除去  RT,QT以降の文除去  ハッシュタグ除去  文字表記法法の統一「は”」→「ば」 Q: 違和感を感じたのはツイート分類かユーザ分類かが混ざっているのか。  人自体が多面性持ってるし、移り変わるものでもあるし。ツイート分類  して時系列的にユーザ分類するのが良いのかしら。 会場Q: カテゴリを辿って近いパスといったが、共通カテゴリへの最小パス? A: 特徴語から近い方。 会場Q: 閾値から2以上というのは2未満の誤り? A: 最上位カテゴリと特徴語があり、数式では最上位カテゴリからの値。 会場Q: Wikipedia中リンクのアンカー名とタイトルとの関係を使うと  より頑健な抽出ができると思う。 会場Q: ユーザ20名はどうやって選んだ? A: Streaming API から取得した日本人からランダム抽出。 会場Q: ユーザによってカテゴリのしやすさもあると思う。 会場Q: 複数のことに興味があってまたがったツイートをしている人も  いると思う。特徴語から共通カテゴリを取るとかなり上位のカテゴリ  が取られてしまい変なことにならないか。 A: 1ユーザについて全部をまとめて共通カテゴリを作るわけではなく、  複数カテゴリが付与される。閾値調整であまり上位過ぎないように調整する。
B2-2 マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案 (pp.452-455)
○向井友宏, 黒澤義明, 目良和也, 竹澤寿幸 (広島市立大)
Twitter「リスト」の名前からユーザの属性を判別&特徴誤抽出。 必ずしも嗜好情報を表しているとは言えない。 「お気に入り」は嗜好情報含むが、あまり利用されていない。 →「リツイート」を利用。  全ツイート使うよりもクラスタリング結果は良質に見える。 リツイート中の名詞を利用。  表記揺れ→Wikipediaカテゴリ情報  意外性のある推薦 バースト+極性評価(ネガティブ時は推薦しない)  仮定:推薦が受け入れられやすいタイミング Q: favtterとかある程度整理されたのを後から見るケースも増えてきてる  ので、リアルタイム性が必ずしも高いとはいえないのかも。 Q: (そもそもツイートに反応するボット的な推薦は受け入れられるのだ  ろうか。ボット的な推薦なのかは分からないけど) 会場Q: ネガポジ判定に「ヒット」といった言葉で決まってしまうとのこと  だが、野球でも攻守によって異なる。その対応はできるのか。 A: ツイートの流れを追う事によって判別できると思う。 会場Q: (1)リツイートを対象にした時と全ツイートを対象にしたときとで  どのような差が見られたのか。リツイートは情報が高かったものを広める  役割で、嗜好を表しているというのも何となく分かるが、クラスタリング  されているか否かと嗜好を表しているか否かは一致していないように思う。  (2)タイミングで高揚している時に出すというのは面白いともうが、  実際やってみてどうだったのか。 A: (1)ユーザ毎にプロファイリングした結果、全ツイートを用いると特徴的  な語が取得し難い。  (2)タイミングについては、評価実験はまだ行えていない。 会場Q: クラスタリングの評価について、直感的にやったのか、  客観的にやられたのか。 A: 成功している/いないについては直感。具体的な尺度は無い。 会場Q: クラスタリングすることで意外性のある情報推薦ができると考えた理由は? A: 異なるユーザの特徴語に共通点が多く、異なる特徴語があり、  カテゴリ的に上位で共通していれば意外性があると考えた。
B2-3 Twitterからの個人の行動に起因するトラブル予測システムの試作 (pp.456-459)
○隅田飛鳥, 服部元, 小野智弘 (KDDI)
ユーザのログから特定トラブルが発生する可能性が高いか否かを判定したい。 例:健康管理システム(肥満) 個人の行為・状態の積み重ねを原因とするトラブルに限定  地震とかサーバダウンは対象外  因果関係を用いた予測  時間関係も加味して要因を認識する必要がある 原因候補の抽出+グルーピング  名詞の上位下位関係、動詞の含意関係 時間情報を考慮してトラブル発生しやすさを機械学習してスコア付け  素性:単語そのもの+周期性+原因候補の書き込み時刻+周期の変化 Q: メタボとか複数要因(食事、運動等)が絡むようなのは、  今の所考慮しないということか。 会場Q: 評価について。「風邪」から「風邪」は分かりやすいが、  「風邪引きそう」はトラブルとしては除外? A: 除外。 会場Q: ニーズについて。ユーザが使う時に嬉しいのかどうか。  どう説明するのか、役に立つと示すのか。 A: 実証実験を行いたいと思うが、まだそこに至っていない。  精度高くしないと実用には厳しい。 会場Q: 表現語の選択はどうやっている? A: 「風邪」を必ず含む後にしているので、限定し過ぎているかもしれない。 会場Q: 「太った」というのが「トラブル表現」とのことだが、  太るというのは急激に発生するわけではなく徐々になる。  トラブルとしてはどう書くのか。 A: 例としては「体重計のったら太っちゃった」とか書かれる。  それを「太る→太った」と表現した。 会場Q: 警告をすると言ったことを考えている? この時に太ることを  覚悟していることもあると思うが、どう考えているか。 A: トラブルの選択については考える必要があると思う。
B2-4 マイクロブログサービスの返信行動に着目した投稿及びユーザの分類 (pp.460-463)
○黒澤義明, 竹澤寿幸 (広島市立大)
フォローしやすい→増え過ぎて大変→要選択  親密度(?)を返信行動「投稿の繋がり」で分類  名詞だけでは無関係→Wikipedia辞書でカテゴリ同一 カテゴリ化  Wikipediaでカテゴリ情報抽出(2段階) 双方への配分  ペット:3×α (3倍して重み調整)  ツイッター文長自体が短いので、複合して情報量upを期待 クラスタリング  pLSA, SOM Q: ツイート文長が短くて情報量少ないという点を「カテゴリ名」を  「3倍+重み調整」するというのが相対的のどのぐらい効果が出そう  なのか良く分からない Q: TL検索して垣根を越えて人を見つけやすくなってるだけでも十分  だとも思うけど、コミュニティ単位での検出という意味ではそれが  嬉しい場面もありそう。ハッシュタグもそうだし。 会場Q: クラスタリングで、学部が一致すべきかどうかが良く分からない。 A: 課題でも述べたが、学年の進行に伴い変わるものだし、学部の中でも  仲が良いとは限らない。もう少し細かいクラスタでやりたいが、  細かい情報が載せられてないためアンバランスな面がある。 会場Q: セレンディピティという話もあるようだが、最終的な目的は? A: 全ツイートを見るわけにはいかないので、興味のあるツイートを提示  したい。興味通りの所を提案するだけだと飽きるので、新たな友達を  発見するツール等を考えている。 会場Q: 返信内容に含まれる単語を使ってクラスタリングしているよう  だが、単純に考えると返信し合っている人は同じくラスタに入りやすい。  それだけだとフォロー関係使っても同じものを得られそう。それ以上の  ものが取れているのかどうか。 A: 直接比較はできていないが、フォロー関係については別途やっており  合体/比較していきたい。 会場Q: 評価の方法として、ツイッターで作られるコミュニティと  現実生活コミュニティが同じであると仮定していると考えている? A: その通り。 会場Q: それをネットで発見する意義は? A: 友達作りが下手という話も良くきくようになった。  実際あるコミュニティを知らない場合に、チャンスが広がると考えている。
B2-5 Twitterユーザの属性判別によるスポーツ映像の自動要約 (pp.464-467)
○小林尊志, 野田雅文, 出口大輔 (名大), 高橋友和 (岐阜聖徳学園大), 井手一郎, 村瀬洋 (名大)
膨大な放送映像を効率的に閲覧する技術が必要 視聴者の視点による重要なシーン検出  盛り上がり(歓声/実況チャット)を利用 実況書き込み  属性評価辞書で投稿者の属性判別   「どちらのチームを応援する文脈に現れやすいか」   チームを応援するハッシュタグ  要約映像の生成   同一チームを応援する投稿者の書き込みかr亜盛り上がり度を算出 Q: バイアスを気にするというよりそれが気にならないぐらいに  高バイアスしちゃうよ!というように見える。 Q: ツイートタイミングと映像タイミングとでの時間差は  何かしら一意にアライメントできるのかしら。 会場Q: 中日ファンの例を見たが、ロッテファンではどうなるのか、違いは? A: 試合内容と展開によって大きく異なる。この例では大差で負ける。  この場合、買ってる方は「相手の得点」でも盛り上がる。 会場Q: 巨人/横浜だった場合、巨人ファンが多すぎるといったことがある  と思うが、問題にならないか。 A: 単語数を一致するように設定していることで調整できた。 会場Q: 2chの実況版とかあるが、それを利用することはできないか。 A: 匿名性があり、どのユーザがどの書き込みをしたかというのが得難い。  Twitterに特価した手法。 会場Q: (1)ユーザの立場が分かるというのは面白い。偏りがあるというのは  良いが、日本と別の国となると片方の立場で映像出さないといけない、  majorityになるような場合にどうなるのか。(2)評価について、立場を  評価せずにTwitter盛り上がりだけを見た時にどうだったか。 A: (1)明らかに偏りがありすぎる場合には、基本的には属性判別困難。  単語に隔たりが出てくると可能性はあると思う。  (2)実際の書き込み件数だけでいくのと比較すると、2シーンはとれた。  他は立場を考慮しないと取れなかった。
B2-6 Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出 (pp.468-471)
○鈴木啓太, 新美礼彦 (未来大)
最新の話題を収集し続けるのは困難→話題抽出 Googleトレンド/kizasi.jp  何故話題になっているのか、どう使われているのかは分からない。  →話題を類推できる情報を提示したい 類推ワード  トピックワード:相関ルール抽出で生成   結論部にトピックワードを持つルール  関連文書:類推ワードと集めた文書から生成 Q: 昨日のポスターセッションであった「ページに何が書かれているかを  示す記述用語」みたいな話かしら。 会場Q: 相関ルール抽出で語彙を増やしたとのことだが、類義語とか  他の方法とは違う効果が得られるのか。この方法に着目した理由は。 A: 相関ルール抽出しか知らなかったというのが大きく、  他の手法と比べてというのは無い。 会場Q: 具体的にどういう目的でやっている? A: 類推ワードと関連文書を抽出し、Twitter呟きを使うことで日々  生まれている単語/略語を類推できるような文書を抽出すること。 会場Q: kizasiみたいなもの? A: その通り。
B2: テーマセッション4: Twitterと言語処理: パネル討論 最新情報や開発ノウハウについて。 ハッシュタグ: #twitterconf  togetter: 言語処理学会第17回年次大会-パネル討論[B2-6]Twitter情報を活用したサービスの現状と課題 Twitter研究会  Twitter, Ust, ATND 以下、  ・パネリストによる数分プレゼン  ・討論お題  ・会場質疑応答 の3部構成。
>横田 真俊(Twitter解説書著者) @Wslash Twitter連携サービスの変遷  BOTの時代   今日は何の日?   並の人間よりもBOTの方がフォローされる  ランキングの時代   ふぁぼったー、トゥギャッター、バズッター  Daily meの時代   デイリー enews   paper.li、Flipboardなど
>辻村 浩(沖電気工業株式会社) @tsupo TwitterのStreaming APIを使ってネタ集め  public_timeline, private_timeline 取り扱いに注意が必要   原則として public 使おう  ログ保存機能のあるTwitterクライアントでひたすら収集   Tween, Shiro, Chirrup,,,   Twitter IRC gateway(TIG)経由でIRCクライアントの利用も  REST APIには時間当りの発行回数制限あり   ホワイトリスト登録申請はなくなる方向  Streaming API   firehose: Twitter社と契約必要(法人のみ)   sample: 契約不要(10~15%に間引きされたもの)   filter: 契約次第。検索条件に合致するもののみ取得したいとき。  参考: FaceBookの場合   public_timeline に相当するものは無い   基本公開された情報でもないので取り扱い注意
>榊 剛史(東京大学) @tksakaki ソーシャルセンサーとしてのTwitter  Twitterにおける「今」と「どこ」の重要性  実社会を観測するソーシャルセンサー   トレンド・ニュース分析    ツイちぇき!、Buzztter、、   評判分析    クチコミ係長、TweetFeel、、、     情報伝搬分析  ユーザー影響力分析  自然現象等の観測   カゼミル   (終了)みんなの花粉症なう!β  自然現象の抽出   地震検出、虹検出、渋滞・交通情報抽出  イベント検出の仕組み   地震の場合:特定キーワードを含むツイート収集分析+位置情報   ただし位置情報付きツイートは日本全体で5%ぐらい。   ユーザプロフィールや、ツイート中の位置情報単語も使う。  既存ツールでは十分な解析が難しい   交互的なツイート、省略表現、略語表現  実用可能な情報抽出を行っているプロジェクトは少ない  新しい研究・ビジネスとしての可能性
>岡野原 大輔(PFI) @hillbig 自然言語処理屋から見たTwitter  Twitterをコーパスとして活用   対話、談話情報が抽出できる   周辺情報が豊富   量が豊富  高精度な固有表現抽出が必須   その後の精度問題は大抵キーワード抽出の精度が影響   tweet特有の表現を真面目に処理  スケーラブルな処理速度が必要  自然言語処理の基本的な処理が重要   文が短く、省略が多い   BOWがうまく動かない場合も多く、真面目な解析が重要!   ゼロ照応解析(「俺は良いと思う @RT:….)   共参照解析(「AとBなら私は後者」)   tweetをまたがるトピック抽出(談話解析)
>大角 知孝((NTTコミュニケーションズ株式会社) @elrana ツイちぇき!」開発における取り組みと課題  今、この瞬間に注目されている話題をリアルタイムに分かりやすくお知らせするサイト。  課題:ツイート取得   安定して大量のツイートが必要   Search API:断続的に取れないことがあったりする    APIは動いているが更新されない   APIが不安定になることを想定した実装   並列して異なるAPIを利用    Streaming API (gardenhose) + Search API (search.twitter.com)   バイアス    場所指定 Search APIとStreaming APIでのツイート文字数比較    場所付きの人はしっかり書いてる傾向   Buzz Finder Next(仮称)
>お題1:Twitterは他の言語処理と比べて何が違うのか。 ・ネット特有の言葉が多い(wwwとかも) ・Twitterは一旦投稿したものを削除することはできるが、編集はできない。  揚げ足取り等に発展しやすい要因の一つ。 ・即時性。極めてリアルタイムに近い。  電車が止まった時にTwitter検索した人挙手→結構いる ・日本語と英語とでも使い方が大きく異なる。  英語だと単文。日本語だと議論にもなりやすい。 ・現実世界との繋がり、コメントしやすさ。  世の中で起きていることに対してコメントしている。これを取得しやすい。
>お題2:Twitter情報活用したサービスは色々ある。それらにおける課題や注意点。 ・安定したクローラーを書くのが大変。  普通にAPIで集めるのだと量が足りない。 ・Twitterや検索の仕様が結構変わる。  言語指定の有無で結果が異なるとか。 ・データの量が多い。後ろ側で解析する処理が結構しんどい。  裏側の作りをしっかりしないとサービス提供上の課題。 ・Twitter流れてる情報はpublicだけではないので扱いに注意。 ・Twitterを認証に使ったサービスが増えてきているが、今後トラブルが出てくるのでは。
>お題3:今後期待されるようなサービス/技術。どういうアプローチが面白そうか。 ・自分の個人情報に着目して補助するサービスが増えると思う。  Facebookとの使い分けにも興味あり。 ・発表にあったトラブル予測のようなものに期待。  もっと面白いBOTを! ・作ったサービスが期待されるように。  APIがどんどん更新されて、メタ情報が増えてきている。それを使おう。 ・Twitterだけでなく4sqもあるが、空間を有効に利用するサービス。 ・ユーザがどういう属性持っていて、どういう話題が受けているかを分かると
 ビジネス的に有効。どう仕掛けたらどう情報が伝搬するかというモデルは  あるが、それを使った実サービスが出てくるのでは。 Q: Twitterに限らず「情報膨大→要約→嗜好加味した要約」という目的や  手段の推移は分かるが、これらを「アンケート評価」よりももう少し  ベンチマーク的な評価をする場をセッティングすることはできないか。  GroupLensみたいに。 会場質疑応答 会場Q: サービス設計する上でリアルタイムに処理するのか、バッチタイムに  するのか。システム設計時点でどちらかにすると、もう片方を考慮  できない。両方を上手くサービス化するための設計は無いものか。 A: リアルタイムの場合でもそのサービスが要求されるのは数分とか10分等、  サービス次第で異なる。小さいバッチシステムと大きいバッチシステムを  分けて用意するといったことが考えられる。 A: リアルタイム/バッチ処理かといっても、取りあえず取りこぼしがあると  クローリング問題。そこをしっかり作って、足りない部分をバッチで対応。 会場Q: 公式報道前にTwitterに流れる情報について。利用にあたり気をつけている  点があれば。 A: 一番良いのは、上司をフォローしてフォローされること。ある程度見られ  ているという意識があれば良いのでは。 A: 自分のツイートについては自分の責任。他人のことについてのツイートに  ついては慎重に投稿するようにしている。 A: いろんな人が見ているので、見られ方次第でネガティブに取られることも  ある。できるだけポジティブに取られるよう書いている。 会場Q: private/publicがあるとのことだが、tweetには著作権があるのか。分析して  辞書を作った場合、販売可能か。コーパス公開する際に「やめろ」といった  ことが無いか。今後どう考えているか。 A: 一応publicになっているので検索エンジンと同じ立場。グレーゾーン。  Twitterからアクセス止められたら終わりなので、上手くやる必要はあると思う。 A: Ustreamで流した時にそのツイートを表示したら大きな問題になった。  ユーザ名はぼかして表示するようにしている。 A: グレーゾーン。それがいろんなAPI公開として広がっている部分もある。  ある程度の許容がもたれているという状況では。
招待講演2: 「実務翻訳の現状と未来」講演者 田中千鶴香 氏(日本翻訳連盟理事・日本語標準スタイルガイド検討委員長) 課題  コスト削減(プロセス自動化等)  グローバル化(関連データの標準化)  ベンダーロックインの回避(Tradosの時代、オープンソース)
 支援技術  Computer Aided Translation: 翻訳メモリーソフトウェア、用語管理ツール等  Contents Management System: トピック単位で構造化管理、DITA。  Translation Management System: プロセス自動化、言語資源一元化。 翻訳プロセス全体の自動化  機械翻訳は自動化された翻訳プロセスの一部  対象ファイル→準備→XLIFF等→翻訳支援ツール→XIFF等→後処理→出力   用語データTBX、翻訳メモリーTMX   機械翻訳は翻訳支援ツールの一つ。 実務翻訳関連オープンスタンダード  翻訳メモリー   TMX(LISAの規格), XLIFF(OASIS), SRX(LISA), ITS(W3C)  用語データ   TBX(LISA), UTX(AAMT) 言語資源の活用  TAUS(Translation Automation User Society)  TDA(TAUS Data Association)   2011年3月より会員以外も翻訳メモリーのup/download可能に。   *uploadは著作権クリアしたもののみ許可。   関連URL: TAUS Search    入力文「翻訳機能」→「翻訳 機能」じゃないとうまくいかない。    何かあればTAUSへ。 機械翻訳+ポストエディット  MTと人手による後編集   機械翻訳の品質に応じてではなく、   目標品質に応じてエディット作業を選択。   目標品質毎のガイドラインはTAUSが提示している。  MTのみ/MT+社内ポストエディット/MT+社外ポストエディット(ライト/フル) 実務翻訳は目的・機能を重視  コストとスピードに応じて設定   正しい表記/自然な言葉遣い/読みやすさ/良い翻訳 和訳時の日本語表記の問題  文字種が多い  「どのように訳すか」と同時に「どのように表記するか」が問題  発注者毎に用語や表記仕様が異なり標準化されていない(特にIT業界)   コンピューター?コンピュータ?   ローカルエリアネットワーク?   ローカル・エリア・ネットワーク?ローカル エリア ネットワーク?   グラフィカル?グラフィック? 日本語表記への取り組み  SINAPS Forum   日本語表記スタイルガイドを整理    e.g, 半角英数字の前後にスペースの有無、長音の有無、、 表記使用の不統一:まとめ  百害あって一利無し   ガイドラインは機密文書   翻訳品質基準の一つ   優良企業ほど企業文化を尊重 提案  表記統一ツールの提案   対象ファイルから用語を抽出   抽出した用語の標準表記を定義ファイルに従って生成   抽出した用語を生成した標準表記の用語に置換   元のファイルに書き戻す   ファイル形式対応  問題点   辞書登録時のミスが永続化   新語はどんどん増えていく 翻訳の本質は不変  言葉・質に対するこだわり  「間」の翻訳 Q: 同じ文であったとしても、文脈によって訳仕方が不適切な翻訳結果が  あると思うが、どのように選択/支援されるべきか? 会場Q: 表記揺れを無くしていくという提案があったが、全世界に強制する  というものではないという認識で良いか。言葉の表記揺れにも  コントロール・ランゲージに通じる部分がありそうだが、どう考えているか。 A: 表記ガイドラインに従って翻訳せざるを得ないのが現状で、大変なストレス。  これを何年も続けているとタマラナイ。自分は自由に書いて、後はツールを  使うことで企業毎のガイドラインに従う形に変換できるようになれば、  とても嬉しい。 会場Q: それぞれが自由に書いた文を機械で変換するという話について、  語だけじゃなく、構文的な部分もできるんじゃないかと思う。 A: そこまでできるのであれば、ニーズもあるはずなので嬉しいです。 会場Q: 開発する場合お金は出るのか。 A: 検討させて頂きます。大きなビジネスチャンスでもあると思う。 会場Q: 翻訳以外にも社内文書スタイルに統一したいというのが恐らく企業ニーズ。  そういう企業の蓄積したデータが大量にあれば、ここに参加している人は  そこに統一するというツールはできると思う。ただし精度の問題はあって、  100%は困難で、いくら貰えるならどこまで精度を高める努力をする、  という話に落ち着くと思う。ある程度できたらリファインするというのが  現実的だと思う。 A: 実務翻訳の世界では、扱ってるファイル形式が沢山。こういったものも  扱えるようになると嬉しい。逆に言うとそこが条件でもある。そこが使えないと  使い物にならない。抜き出汁と書き出しを人間がやらざるを得ないと、  物足りず、値段を付け難い。 会場Q: (1)日本語と英語のペアを見ると機械翻訳でも難しいペア。翻訳のコスト  として違いがあるのか。(2)日本人は言葉に対する思い入れがあるという話が  あったが、表記の揺れは重要かもしれないが読む側にとってはどうでも良い。  そこまで求めているかというのはオーバースペックではないか。スペックを  下げて行く運動があれば、無駄なお金を減らせるのではないか。 A: (1)コストについては、求める品質との兼ね合いによる。言語の違い、  場所の違いによっても異なり、簡単には言えない。(2)オーバースペックでは  ないかという点については、その通りだと思う。ユーザは特に考えていない。  ただし、社内スタイルを変更するためのコスト、揺らぎを許容するための  コストが大変。 企業Q: ツールを利用する際に、翻訳のように100%マッチしたら問題無いと  思うが、そうじゃないケースについて。マッチ度合いが少し減る場合、  自分が訳した方が早いのか。 A: コストの問題でもあるが、がっかり感。
特別講演: 「表現から意味へ:言語処理技術と言語の科学」講演者 辻井潤一 氏(東京大学大学院,マンチェスター大学教授,英国・国立テキストマイニングセンター 研究担当ディレクター) 計算言語学と言語処理 正しいアプローチ?  テキストに対して野心的な目標   T-H pairs/Frameの認識/意味役割の付与   特徴抽出器   →うまくいかない場合にはここを改善したり、テキスト増やしたり。    チューニングした結果はドメインが変わると知見が活かせない。    →分野適応/モジュラリティ 考えたいこと  ・テキスト表象と「意味」や「解釈」との間には大きなギャップがある。   目標が恣意的あるいは過度に野心的に設定されていないか。  ・人間の言語処理アーキテクチャは複雑。   単一の機械学習器だけでは不十分では?  ・巨大データへと向かう方向とは別の研究方向もあるのでは? 工学と科学  SRL, Textual Entailment   句構造、依存構造、意味ラベル    観測不可なものがアノテートされる。NLP応用上嬉しいから付けているだけ。    理論的正当化なく試行錯誤的に行われる。    疑似科学的な定量的評価。    →理論的により設定+理論からの吟味+正当化が必要では。   言語的な表現レベル    深層と表層    多層的な理論 vs. 炭層的な理論   説明すべきデータと説明すべきでないデータ   生得説と連合説    言語処理に特化した計算アーキテクチャ?   量には還元できない特異な構造   質/効率/モジュラリティ/適応可能性への寄与 The modularity of Mind/精神のモジュール形式  批判されるべき箇所は多分にあるが、分かりやすい形を提示。   言語処理のある部分は周辺系にあり、情報遮断性がある。   中央系は非限定的な情報参照があり、科学の対象としては研究できない。   →強すぎる主張ではあるが、ごった混ぜにしない点は有益では。 文法理論に基づく深い文解析  制約文法の研究CL:可能な解の集合(句構造木+述語-項構造)  文解析器の研究NLP:可能な解の確率分布   両者を切り離して見つけることを研究し過ぎていて、   どういう解があり得るか、どういう制約を満たしているか、   といった側面がお座なりでは。統合されるべきだろう。  意味に基づく知的な文検索システム MEDIE 何が計算できるかをきちんと定義する必要があるだろう。 どういう構造を計算したら良いのかを決める。 文法理論  初期の変形生成文法:深層構造で表層の違いを解消したい。(表現と計算の混同)  生成意味論:深層過ぎる。(野心的過ぎて奇妙な規則/雑多な系)  解釈意味論:あまり表層と変わっていない。(宣言的な関係記述)   →表層/深層を宣言的に記述する HPSG(主辞駆動句構造文法)  辞書として記述   e.g, love: 動詞、主語1つ、目的語1つ  文法規則   テンプレートとして記述    ユニフィケーション    情報伝搬    →辞書項目に、統語構造と意味構造の写像関係が規定される  複雑な統語構造から意味への写像 深い解析器に関する二つの見方  (1)入力→機械学習器→出力   入力は様々な特徴抽出により雑多に生成   出力に、フレーム/フレーム要素の認識(FrameNet)は野心的すぎる。   出力に、意味ラベル(PropBank)もまあだ野心的。  (2)文→深い文解析器→HPSGによる派生過程→述語-項構造(深い統語構造)  各々タスク設定が異なる。  (2)では比較的浅い所に「述語-項構造」が来る。 広いカバーレッジの文法  文法開発と評価のための木構造バンク   派生構造にある確率分布も計算できるので、最も適切な構造を選択する問題に。  文解析の難しさ   カタラン数   優先解釈の選択    比較的もっともらしい解釈をうまく選んでくれる確率モデルが必要    確率HPSG 高い効率の文解析 実用上は速くないと使えない  ユニフィケーションを速くするだけではダメで、  ユニフィケーションしない(ユニフィケーションする回数を減らす)、  まで考える必要あり。  →探索問題   CFGフィルタリング、高効率な探索手法、スーパータギング   ビームサーチ    ビーム幅を狭くしても大抵は上手くいく。    失敗した時だけビーム幅を広げてやり直す。 スーパータギングによる文解析器 局所処理と周辺文脈 意味の構成性(Compositionally)  フレーゲの原理:全体の意味は、部分の意味から決定される  ボトムアップに意味は計算できる  周辺文脈からの優先解釈の決定   辞書項目を選ぶ場合に、周辺を見て選ぶ→スーパータギング 優先探索を木構造作る過程でやるより、 木構造は作ってしまった後で項目選択時にやる。 スーパータギングのモデルにフィードフォワードする等でより高度に発展させると、 ユニフィケーションせずに探索問題として解けて、効率も良いシステムが作れる可能性。 統合的なモデルから段階的なモデル、 初期の段階で豊かな情報を参照するモデルが高効率な処理モデルになり得る。 述語-項構造は、より深い構造へと情報を写像するためのインタフェース表現となる。 巨大な学習データがあっても良いと思うが、 人間は、巨大な学習データを必要としないように見える。 Q: 安易に機械学習で何かをまとめて学習するというアプローチはそもそも  無理筋じゃないかというのは全く持ってその通りだと思う。そこを人間が  試行錯誤的にデザインしている部分そのものを機械化してしまえば、  と思うが、それでも計算リソース的には厳し過ぎるのだろうな。  そもそもそこを定式化(≒システム化)できていないわけだし。 会場Q: 生命科学の分野に特化されてイベントへのマッピング等をやる場合、  一般の場合にはどう手をつけたら良いかがまた悩ましい。どうアプローチ  したら良いか。 A: ドメイン特化知識と一般言語を繋げる所に、もう少し意味が寄与している  ように思う。言語だけでも知識だけでもないような部分を捉える必要がある。  ただし直接的にやろうとすると非常に粗い研究テーマになるので、  今はドメインでやってみたい。ワトソンも、かなりドメインを絞った特殊化  されたシステム。事象は何か、関係とは何かというのはまだ早いかなという印象。 会場Q: 巨大なデータを必要としないという点について、確かに巨大データを  食わせるのはどちらかというと嫌。ただ食わせるだけではなく、裏にある  何かについてもデータを必要としない考え方や枠組みが必要ではないか。  スーパータガーのモデルをどう作るか。 A: 巨大データの是非については議論の余地がある所。巨大データは知性とは  全く違うので、人間には無いような何かを持つ可能性もあり得る。  何かヒントが見えるところは否定できない。何をストラテジーに研究するか  ということ考えると、ドメイン・アダプテーションについて、比較的早く  適用するというタイプの研究もあり得ると思う。個人の話としては、  巨大データを食わせてドメイン特化モデルを別分野に適用する際に、  なるべくかかるコストを少なくしたい。ある種パラメタライズされた  ようなモデルかもしれない。パラメタさえ分かれば調整できる、  そういう感じのことをやりたい。
P3: ポスター(3) P3-3 英語論文表現データベースを用いた分野横断的ムーブ分析 (pp.591-594)
○金丸敏幸, マスワナ紗矢子 (京大), 笹尾洋介 (ヴィクトリア大), 田地野彰 (京大)
論文の構造が「背景→目的→、、、」とかIMRDという順番になっているかを 大量文献&人海戦術で調査してみたという話。アノテーション自体に揺らぎが 多く含まれているっぽいけど、こういうのが積み重なると、 「こういうストーリー構成の物語を読みたい」みたいな検索ができたりするんだろうか。 P3-4 語の共起を効率的に検索できる日本語作文支援システム「なつめ」の紹介 (pp.595-598)
○阿辺川武 (NII), ホドシチェク・ボル, 仁科喜久子 (東工大)
当初は留学生向けの作文支援ということだったようだけど、 特に留学生に限定する必要ないよねということで表記のタイトルになってるらしい。 限定する必要が本当に無いのかが気がかりで質問してみたのだけど、 本当の所はどうなんだろう。 P3-8 短答式記述答案の採点支援ツールの開発と評価 (pp.611-614)
○中島功滋 (ベネッセ/CRET)
比較的単文(1文とか2文?)を想定した採点支援のため、 クラスタリングすることで似たような回答群としての提示と、 参考回答とのBLUE距離で参考採点付けてみたらしい。 問題文も利用できそうなんだけど、そこは手つかずっぽい。 P3-10 汎用アノテーションツールSlate (pp.619-622)
○Dain Kaplan, 飯田龍, 徳永健伸 (東工大)
多分、嬉しいツールなんだと思うけど、 「こういうアノテーションにはこういう属性名付けると良いですよ」 みたいな推薦までサポートしないと使い難そう(アノテーション結果を 利用するユーザにとって使い難そう)な予感(勝手な想像)。 クラウド的にアノテーションされたデータ蓄積しまくって、 傾向抽出すると面白そうなんだけど、どうなんだろう。 P3-11 『日本語話し言葉コーパス』における話題導入表現の形態統語論的特徴と談話構造の分析 (pp.623-626)
○高梨克也 (JST/京大)
面白そうなんだけど客多数で話聞くタイミングが合わず。後で読もう。 P3-12 複数の客観的手法を用いたテキスト含意認識評価セットの構築 (pp.627-630)
○宇高邦弘, 山本和英 (長岡技科大)
逆説的なのか自分自身で良く分かってないですが、 主文から推察できる事象を、その確度と共に生成できると便利そうなんだけど、 同じ話なんだろうか、違う話なんだろうか。 P3-21 長単位に基づく『現代日本語書き言葉均衡コーパス』の品詞比率に関する分析 (pp.663-666)
○冨士池優美, 小西光, 小椋秀樹, 小木曽智信, 小磯花絵 (国語研)
素性に「形態素、句、節」といった単位とは別(?)に、 「短単位、長単位」という言語単位があるっぽい。 P3-29 筆跡とパーソナリティの多面的対比 (pp.691-694)
○高野孔司, 久野雅樹 (電通大)
心理学?だかである程度の傾向はあるものと解釈するのが正しいのだと 思ってましたが、そうでもないのかしら。問題設定(テスト環境の設定) 次第でどうにでも解釈が変わりそうでもあるので、そこら辺の話が気になります。

NLP2011, 本会議1日目終了(セッションB1: Web応用)

火曜日, 3月 8th, 2011

NLP2011、本会議1日目(一般講演セッション1つ+招待講演1つ+ポスターセッション2つ)。
これ書いてる時点ではまだ終了してないですが(ごめんなさい)、
ポスターセッションで見たかったものは見て終わったので、今日のまとめ。

例によって青字は個人的な疑問等赤字は会場質疑応答です。

目次
B1: Web応用
 ・質問で不足している情報を回答で指摘されたユーザが再投稿した質問の調査
 ・ブログにおけるコメント先の解析
 ・大規模Web情報分析のための分析対象ページの段階的選択
 ・情報分析システムWISDOMのユーザ評価とその分析
 ・言論マップ生成技術の現状と課題
 ・Web文書の時間・論理関係分析に基づく情報信頼性判断支援システムの開発と実証実験
 ・クエリログの時系列情報に基づくキーワード修正リスト生成手法
招待講演1: ゲノムを読む、榊 佳之 氏(豊橋技術科学大学学長)
P1: ポスター(1)
P2: ポスター(2)





B1: Web応用

B1-1 質問で不足している情報を回答で指摘されたユーザが再投稿した質問の調査 (pp.33-36)
○小島正裕, 水野友之, 渡辺靖彦, 岡田至弘 (龍谷大)
情報が不足している質問 ・不足している情報の指摘 ・指摘を利用した質問作成支援システム(最終目標) →今回は調査報告 直接的に解決する回答ではないが、 解決のための状況確認を促すコメントの割合が多い。 →さらにその中でも  「質問者がそもそも知らなかった情報」よりも  「知っていたが記述していなかった」割合の方が多い。  →質問することで指摘すること自体で良質の質問を行えるのではないか。 Q: SVMで何かを学習するようだけど、入力は質問文だとして出力は何だろう。 Q: 質問カテゴリを「パソコン・周辺機器」に絞ったことで「質問での説明  が不十分」になりやすいという傾向が無いか? Q: 「質問での説明が不十分」であることを指摘する際、何が十分でないの  かを伝えることが適切かはどのように判断するのだろうか? 会場Q: 今回の事例は、全体の中でどのぐらいの割合なのか。 A: 4,000件/100,000件(多分)。 会場Q: これはシステムが検出した件数だと思うが、coverage は  どのぐらいかは調査しているのか。 A: まだしていないが、大凡の傾向としてはこのぐらいだと認識している。 会場Q: 最終的にこの結果をどう使いたいのか。情報が不足している  という指摘を自動的にしたいとのことだが、質問する(質問だけ  を見る)段階なのか、ペアを見て分かるようにしたいのか。 A: 両方。 会場Q: ペアを見ないと分からないというのでは余り面白く無いの  では。回答が無い状況で指摘できるようにはならないのか。  現状のシステムではどうなる? A: 現状ではまだ動いていない。 A: 予想する所はかなりいけている。しかし、不足している情報の  可能性がいろいろあって、どれから出したらユーザに取って便利  なのかというところが良く分からない。良い答えが返っているの  はどういうペアの時かという情報から重み付けることで、優先度  を付けることができるだろうと考えている。
B1-2 ブログにおけるコメント先の解析 (pp.37-40)
○津野優佑, 徳久雅人, 村田真樹 (鳥取大)
情報収集の際、ブログ記事本体だけでなく、コメント部にも有益な情報がある。 ただし、コメントが何(記事本体or先行コメント)に対する情報かが分からない。 →コメント先の解析 
着目点 ・文章内容の類似度 ・ブログ記事の特性(コメント先や相手名を明示する慣習など)利用 ・共通名詞の利用(コメント中の共通名詞) Okapi BM25 によるスコア利用 ・共起語の利用 ・文末表現対の利用(コメント元コメント先の文末部分3文字を利用)  e.g., 〜ですか? 〜ですよ Q: テスト用正解データを人手で作成しているとのことだが、厳密な正解  が判断しづらいケースもありそう。どういう例があったのか。 Q: 複数手法の組み合わせ方を優先順位として決定しているが、重み調整  して利用することはできないのか。 会場Q: コメントにはブログの記事本体へのコメントや、コメント間  コメントもあると思う。今回は本体へのコメントは扱わなかったのか。 A: 今回は本文もブロックの一つとしており、扱っている。 会場Q: 本文はコメントより長いが、その影響は無いのか。  式が変わってくるとか。 A: 文長によってスコアや特徴量が変わるというのは、文長によって  調整してくれるため影響は小さいと思う。 会場Q: 単純に、新しいコメントであれば本文に繋げるといった  ナイーブなルールは使用していないのか。 A: 提案としてはあったが、今回は利用していない。 会場Q: 「**さん」といったことを付けないと行けないのは、複雑な  時には効くと思うが、そうじゃない時には前のその人のものという  アドホックなものでどのぐらい精度が出るのか。そこがベースライン  になりそう。そこでどれぐらいの精度になりそうか。 A: コメントを確認していた限りでは、コメント先を明示していない  ことが多いので、さほど差が無いと考えられる。 会場Q: コメントが10も20もある場合は別だが、数個の場合には  ほぼ本文じゃないか。 A: コメント2は本文かコメント1へのコメントである場合だけでなく、  全く関係ない話題へのコメントでもあり得る。 会場Q: 問題の難しさを示すためにも、先に示したアドホックな方法で  どのぐらい精度が出るかを示した方が良いと思う。 会場Q: コメントや本文を大きく一塊にしているが、塊の粒度を変える  ことに対してどのぐらいロバスト性があるか。 A: 発話単位でやっているが、対象としてる文の範囲を帰ることも可能だと思う。 会場Q: リスト順位のトップを変更したケースも試していれば、  その結果についても知りたい。 A: 今回は試していない。
B1-3 大規模Web情報分析のための分析対象ページの段階的選択 (pp.41-44)
○赤峯享 (NICT/NAIST), 加藤義清, 川田拓也, レオン末松豊インティ (NICT), 河原大輔 (京大/NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT)
WISDOM「誰が、何を、どう評価/主張しているか」 分析基盤  10億ページ/2億の構文解析済みページ  スパムページやカタログページばかりでは有益じゃない  →ページ選択が重要 
Web検索:検索結果の上位数ページ Web情報分析:上位数百〜数千ページが影響度高い ・品質の高いページ  フィルタリング(カタログ、スパムページやduplicateを除外)  重み付きサンプリング(PageRank等) ・更新同期の取れたページ 選択精度を上げるには、メタ情報だけでなくテキスト内容を利用する方が有利。 だが、計算コストが高い。 →仮定:サイト中の一部のページ品質≒サイトの他のページ品質  段階的に選択を行うことでコスト削減。 Q: ページやコンテンツの質に関連しそうな付加情報として、ブログや  ツイッター等での「likeやfav」といった付加情報や、delicious等へ  の登録等様々な付加情報が増えてきていると思う。このような他ユ  ーザが直接的にインタラクションを行った情報を利用することは  困難なのか。 会場Q: 品質の高い、分析に役立ちそうというのと、Webの何を対象  にして分析したいのかに依存しそうだが、罵詈雑言みたいなのも  取りたいということもありそう。どういう立場で役に立つ・立たない  というのを考えているのか。 A: 質の良い罵詈雑言があるという段階ではなく、自動生成された  duplicate/カタログページをまず取り除きたいというのが第一段階。 会場Q: 結果で示した20〜30%というのはそれに該当するページ? A: 殆ど無駄になるページ。 会場Q: 適格/不適格ページを人間でもある程度判断できたとのこと  だが、ケース次第で変わることもあるし、判断のぶれもある。 A: 本当にみんなが低く入れたページは、テキストは含まれているが  2,3文だとか。人によって品質が違うというレベルまでは現れて  いない。人によって判断が変わるという部分は、さらに分析後で解決する。
B1-4 情報分析システムWISDOMのユーザ評価とその分析 (pp.45-48)
○川田拓也 (NICT), 赤峯享 (NICT/NAIST), 河原大輔 (京大/NICT), 加藤義清 (NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT), 木俵豊 (NICT)
http://ici.wisdom-nict.jp/ 続き発表。WISDOM概要と、その評価について。 Webを利用した意思決定を如何に支援できるか。 意思決定プロセス[Simon 1977]に応じた支援技術の開発 ・新たな行為を必要とする状況の設定 ・可能な行為の代替案の探索・発見 ・その中から選択する過程 Q: 玉石混淆の中から情報を選り分けるというタスクにおいて、Web上の  データ以外の知識は利用しているのか? もし利用しているならばど  のようなものか? 利用していないならば、Web上のバイアスを避け  ることは困難だと思うが、それは問題にならない? Q: 選り分けの支援とは一種の情報推薦に相当すると思うが、ユーザの属性  を考慮すして支援することはできないか。例えば、人の属性毎にどの  ような選別をしやすい(することで理解しやすい)形式や、必要とす  る項目は限定されているといったことはできないのだろうか。  →多角的総合的に分析した結果を提示することで代替している。 Q: アンケート評価を行っているが、実際に情報収集・分析するのに要する  時間や労力には違いが見られたのか。  →調査時間も計測しているが、厳密には評価していない。調査自体が   いい加減な人は評価がばらばらになりがちというのは見られた。 会場Q: アンケート評価一般100人について、意思決定にも色々あると  おもうので、ユーザ層を絞って評価してみては。 A: 敢えてユーザ層をばらけさせている。そもそもどういう意思決定が  あるかを知りたいということと、層毎に質的な差異があるならそこも  確認したい。
B1-5 言論マップ生成技術の現状と課題 (pp.49-52)
○水野淳太 (NAIST), Eric Nichols, 渡邉陽太郎 (東北大), 村上浩司 (楽天), 松吉俊, 大木環美 (NAIST), 乾健太郎 (東北大), 松本裕治 (NAIST)
目的:ユーザの情報信憑性判断を支援 検索された情報を、クエリと意味的関係に基づいて分類し、俯瞰的に表示  同意/対立、根拠、弱対立 言論マップ生成  係り受け解析  述語構造解析  拡張モダリティ解析  局所構造アライメント  関係分類  修辞構造解析 対立関係精度はまだ不十分  海面が上昇する下がる:は認識できる。  海面が上昇する変化しない:は推論が必要。 Q: 同意/対立/弱体率、という視点からトピックを分析しているが、  何故この視点を選んだのか。 Q: 信憑性判断を支援するために多角的な意見を俯瞰的に提示する  ことの評価として、絶対的な基準を設定することは困難かと思うが、  それを考慮しても評価方法は妥当か?(ある程度の軸を提示する  ことで十分だと判断しやすいという傾向を見ているだけではないのか) 会場Q: アライメントが大事とのことだが、理由の所はそもそも  パッセージ検索で違うのが取れてしまう? A: 述語の対立が大変。 会場Q: ユーザ評価について、悪い評価をしたのはどういう例があったか。 A: 基本的には高評価で、悪い評価をしたのは精度やインタフェース  への指摘、ソースが欲しいといったコメントを頂いた。 会場Q: システムのスピードはどのぐらいか。 A: 検索対象文をどのぐらい取ってくるかにもよるが、1クエリで2〜3分。 会場Q: 対立意見を取ってくる所の評価が低いようだが、モダリティ解析が困難? A: 基本的にはモダリティが困難だが、そもそも述語の対立語彙知識が  他と比較して少ない。あるドメインでは対立しているが違うドメイン  ではそうでもない、こともある。
B1-6 Web文書の時間・論理関係分析に基づく情報信頼性判断支援システムの開発と実証実験 (pp.53-56)
○岡嶋穣, 河合剛巨, 中澤聡 (NEC), 村上浩司 (楽天), 松吉俊, 水野淳太 (NAIST), エリック・ニコルズ, 渡邉陽太郎, 乾健太郎 (東北大), 渋木英潔, 中野正寛, 宮崎林太郎, 石下円香, 森辰則 (横浜国大)
WISDOMと相補的なシステム。 情報信頼性判断を支援するシステムの開発と実証実験。 「どうしてその意見を言っているのか」 根拠/理由/切っ掛け/etc. 根拠→言論マップ 異なる意見が生じる理由→調停要約 意見を変えた切っ掛け→意見変化イベント抽出 Q: アンケート評価しているが、ある程度満足できれば高評価するのは  当然で、システムとして適切な結果を提示出来ているかの評価とし  ては不十分では?(そもそも絶対的な正解がある問題では無いと思  うが、何かしら客観的な正解を用意できないか?) 会場Q: トピック毎に分散があることが何を主張したいのか良く分から  ない。調べ方が難しい?価値判断しづらい? A: その2つの側面があり、調べ方が難しく既存システムだと何波ターン  かクエリを試す必要がある。価値判断については、自分は賛成だから  賛成だけを見たい、若しくは逆に反対意見だけを見たい、といった  ことが考えられる。 会場Q: 提案システムと既存システムとで分散が異なるというのは、  ユーザの行動が違うのか? A: それぞれのユーザが賛成意見だけを見たい意見だった場合反対の意見  が低くなることが考えられるが、どちらも網羅的に提示しているため  分散が少なかったと考えられる。 会場Q: 分散分析してみた? A: 統計的優位性についてはまだちゃんとはやっていない。 会場Q: 男女性別が影響しているか、年齢が影響しているかとか見れる  かもしれない。 A: 正確な分析はしていないが、世代や職業については調べてた範囲では  大きな差は見られなかった。 会場Q: 大きなモジュールとして3つあるが、これで十分なのか、まだ  不足していて何か追加が必要なものがあるのか。 A: 難しい。この他にも画像系の処理しているグループもある。 会場Q: 自由回答で「こういうのが欲しい」というのは無かった? A: 発信情報の信頼性ソースが多く、他には特に無かった。
B1-7 クエリログの時系列情報に基づくキーワード修正リスト生成手法 (pp.57-60)
○平手勇宇, 竹中孝真 (楽天)
キーワード修正アルゴリズム:もしかして検索。 文字列距離で多くはうまくいくが、例外もある。 「桃らー」→「辛そうで辛くない少し辛いラー油」 →文字列上の距離が大きいキーワードに対して、クエリ修正行動を利用。 Q: 未知語抽出や同定と同等課題? 会場Q: Googleでもクエリの書き換えということでコメント。適合率80%  は甘くて、世の中では99%じゃないとダメ。極端な事例だが訴えられる  こともある。書き換えパターンを拾っていくと、言語モデルが小さい  ので類似パターンが多く見つかる。一つ一つのインスタンスを見るの  ではなく、同じような書き換えを行っているといった全体を見れば、  精度も高くなると思う。 A: 人手でチェック済ませた後で登録するので、この段階では80%ライン  で多めに出した。追加した後のクエリログ見ることで、クエリがクリック  されなければ違うという判断もできるかと思う。キーワード間距離を  拡張する上でコメントについても検討したい。 会場Q: 読みが々で違うとか、タイポの割合はどのぐらいか。 A: 感覚としては3割ぐらい。残り3割(?)は商品名メーカー名。
招待講演1: 「ゲノムを読む」講演者 榊佳之 氏(豊橋技術科学大学学長) 当初は個別に「どこそこに遺伝子を発見した」が行われ、 全体が見えないままに試行錯誤的に着手されていた。 このままでは拉致があかないので、 ・国際的に協力し合い、 ・各国で責任を持って取り組む箇所を分担し、 ・解読したゲノムを無償公開 する形で取り組んだ。(すばらしい!) サンプル調整→配列決定→データ処理・編集→サンプル調整の繰り返し。 各プロセスで異なる長所が求められる。 →大規模センターではデータ生産の効率性を高める工夫 ヒトゲノム解読のレベル ・何処に何が書かれているか。  これ見ただけでは意味付けがサッパリ分からない。 (1)ゲノムの基本要素を見つける(遺伝子/発言制御エレメント/その他) ・人間だけ見てると分からないが、  例えばハエとかマウスとか、人間以外と比較することで分かることも多い。  →比較ゲノム解析   割と共通している部分が多い。   脊椎動物における制御配列が浮かび上がってきた。 (2)基本要素の機能を知る。  遺伝学的な手法(正遺伝学/逆遺伝学)   遺伝学:遺伝子と表現型の関係を推論する科学   遺伝要因/環境要因   →個人差問題  相同性からの推定(相関解析法)   個人差10%なら該当件数数万。   1%なら該当件数が数千万単位。   何千万分布の偏りはどうなっているか。   →例:脳梗塞/糖尿病になりやすい関連遺伝子は?    ただし要因自体が多岐にわたるので、特定の人達を集めて観察し、    リスクファクターを特定するといった工夫が不可欠。また、    本当に直接要因なのかといった、因果関係の調査も必要。  相互関係からの推定 (3)遺伝子制御システムを理解する  階層性  正と負の制御  頑健性   スケール・フリーなネットワーク構造 (4)これらはまだ静止画。本当の生物は動画。ダイナミックな関係図を描く必要がある。  システム・バイオロジー(現在盛ん) ヒトゲノムが全て読めたことで、 個別事象を全体との関連で捉えることができるようになった。
 テクノロジーの発展  30億塩基の収集に、2002年で1200日程度かかったのが、  2008年には2日、2010年には数分でできるようになってきた。  →全日本人のゲノムデータも集積可能な段階に   必要に応じて個々の解析を検討することも視野に。  →代謝経路予測   Synthetic Genomics   最適のゲノムを構成し、目的に合った最適な生物を構成して   利用することもできるのではないか。   →細菌ゲノム完全合成の例 会場Q: 経路が良く分かるという話について。経路が分かるためには、  かなり多くのタスクが集約されていると思う。NLPにおける言葉に  置き換えるとそこは並大抵の努力ではないように見える。これは  どうして可能になったのか。 A: 基本的には物質を分解する経路。徹底的に遺伝子を調べられて、  基本骨格がある。それからの相同性、相反性、既存経路との関係性  から求めていった。基本骨格、例えば大腸菌とかがあり、そこから  積み重ねていった。 会場Q: DNSシーケンスやる時には馬力のある人とか様々な人が必要  になるようだが、NLPでもそうだと思える。そこをうまくやる  というのは、眼力を持った人がやる? A: 眼力もあると思うが、まずは3つのプロセスともやらせる。その上で  向き不向きを見ていく。全体を理解してもらうのが大切。パートだけ  入ると何のためにやっているのかが分からない。
P1: ポスター(1) P1-12 意見の重要度と客観的補足情報を考慮したレビュー要約 (pp.204-207)
○唯野良介, 嶋田和孝, 遠藤勉 (九工大)
「属性毎に数値評価+自由記述文」で構成されるレビュー群を要約するという話。 【重要語(TFIDF)+分類(クラスタリング)+集約(セントロイド文選択)】 に属性毎の数値評価も組み合わせたやつは評価自体の揺れもあって あまり精度が高くならなかったとのこと。 数値評価を除いた方法で重要文選択するところは比較的良かったっぽい。 P1-13 直接調停要約自動生成システムHERMeSの言論マップとの連携 (pp.208-211)
○石下円香, 渋木英潔, 中野正寛, 宮崎林太郎, 永井隆広, 森辰則 (横浜国大)
ある2つの対立意見について、実は対立しているのは異なる軸であって、 そこを考慮した要約文(直接調停要約)を自動生成しようという話。 解析対象を「全体集合:肯定文書群:否定文書群」の3パターンに分けて、 各々で特徴語抽出。単純な頻度ではうまくいかないが、ランキング+差分 で見るとうまくいくケースが見られてきた(いかないケースもあるが)。 ということらしい。 P1-14 直接調停要約自動生成システムHERMeSの対比表現を用いた精度向上 (pp.212-215)
○永井隆広, 渋木英潔, 中野正寛, 石下円香, 宮崎林太郎, 森辰則 (横浜国大)
精度を高めるために対比表現  接続詞:だが、しかし、、、  接続助詞:けれど  その他:ではなく、逆に、、 を加味してフィルタリング処理で、ある程度効果があったらしい。 P1-16 テキストの内容を表す記述要素の自動生成手法の検討 (pp.220-223)
○久保木武承, 山本和英 (長岡技科大)
単にキーワード検索するだけだと提示される文書群が欲しいページなのか 分からない。それを補助する目的で「テキスト内容を表す記述要素」を 定義し、それを自動生成+自動付与する基礎実験をしてみた、という話。 スニペットや要約とはまた違った視点という意味で面白い。 P1-19 Twitterからの自動車の不具合情報抽出 (pp.232-235)
○北林智治, 酒井浩之, 増山繁 (豊橋技科大)
(1)該当文が不要か否か、(2)Twitter特有の言い回しか、 (3)文に含まれる単語対は何か、(4)抽出条件に合致するか、 といった工程を経て情報抽出するという話。 綺麗に整えたアプローチ。
P2: ポスター(2) P2-1 共起要素のクラスタリングを用いた分布類似度計算 (pp.292-295)
○大平真一, 山本和英 (長岡技科大)
単語共起を利用して「単語同士の類似度」を求めましょうという話。 良くありそうな話だとは思うけど、ノイズ除去するための工夫を加える ことで先行研究よりエラー低減したらしい。 P2-5 述部機能表現の意味ラベルタガー (pp.308-311)
○今村賢治, 泉朋子, 菊井玄一郎 (NTT), 佐藤理史 (名大)
範囲同定と曖昧性解消を同時にやりましょうというアプローチが面白い。 フレーズラティス(表層形+意味ラベルをセットにしてラティス 構造として扱う)を構築して、最尤パス探索問題に落とし込む。 素性には表層形ベースのN-gram素性と、ラティス周辺情報としての マッピング素性2種類の合計3種類で構成しているっぽい。 P2-7 日本語格解析において問題となり得る諸現象の定量的分析 (pp.316-319)
○花岡洋輝, 松崎拓也 (東大), 宮尾祐介 (NII), 辻井潤一 (東大)
「深い構文解析」をするための定量的分析。超お疲れさまです。 項-述語構造が構文木的に遠い所にある関係が取り難いよね、 それをどうにかしようというところへのワンステップっぽい。 spainホップ数という距離を導入することでどのぐらいcoverage が見込めるかを大規模に調査したらしい。

NLP2011, チュートリアル終了

月曜日, 3月 7th, 2011

NLP2011の一日目(チュートリアル)が終了しました。

チュートリアルというだけあって分かりやすい言葉で話されてるケースも多いのですが、濃い話が長時間に渡って続いたので途中から自分で咀嚼することができなくなってる部分が多数。頂いた資料には参考文献も多数示されているので、適宜参照しないと。

今日一日の感想としては、NLP(自然言語処理)というキーワードで括っていても研究対象やアプローチが多種多様なのを体感でき、自分がやろうと思ってることも、よりブレイクダウンして考えないと前進することが困難だということ。前進できたとしても討論の場に持ち上げることができず、「試してみました」だけな話になってしまいそうなこと。一方で、その討論のために評価を厳密にやることが困難なテーマも多数ごろごろしてることが良く分かりました。評価困難だとしても、取りあえず第三者が使えるようにツールを公開してしまうことでリアクション得られてより進みやすくなるというのも、その通りだよなと再確認。やること一杯あって、ある意味幸せですね。

以下に、今日のチュートリアルに関するメモと、質疑応答関連のサマリを残しておきます。

青字で冒頭に「*」や「Q:」が付いてる箇所は個人的な疑問やコメント。
赤字は会場内での私が意味を汲み取れた質疑応答。

目次



(T-a) 3月7日(月) 11:00〜12:30 司会:高村大也(東工大)
「強化学習の基礎と言語処理への応用」伊藤秀昭 氏(佐賀大学)
試行錯誤により報酬を最大化する行動を学習する。 教師あり学習と異なり、明示的にどの行動が最適化は与えられない。 >一段の決定問題(bandit problemの例) ここでは観測は無し。 強いて言うなら2台のスロットマシーンがあるということを観測する。 *報酬自体も観測の一部だと思ってたけど、独立して考えるのね。 最初から期待値が求められるなら計算したら良いが、ある行動を選択した 際に得られる報酬がどの程度見積もれるか分からないときに、最適な行動 を学習したい。 →行動価値の推定 ・exploitation vs. exploration 回数が少ないうちはQ(a)はあまり信頼できない。  arg max(Q(a)) を選ぶべきか(greedy action)  それ以外の行動を選んでQ(a)をより正確にするべきか(exploratory action)  →厳密な解決(様々な要因により異なる)は困難。近似解を考える。   ε-greedy法   softmax法 Q: 報酬が変動するような場合にはどうなる?  ・短期的変動/中長期的変動とかケースバイケース?  ・多段決定問題と等価?   ・割引率の推定/調整問題? >多段の決定問題(三目並べの例) ・1段決定問題との違い 環境:agentの行動により影響を受けるもの+agentに観測と報酬を与えるもの。 報酬:行動の評価はすぐに得られるとは限らない。 →1回のplayでどのぐらい報酬が得られるかを推定。 ・遷移グラフで全局面を網羅生成 ○と□で表現された経路には、観測と行動の履歴を対応付けることができる。 各履歴の生起確率は、各行動and各観測がどの確率で得られるかに依存。 ある履歴o1において行動a1を選ぶ関数π((o1),a1)を政策と呼ぶ。 最適なπ()を学習するのが目標。 ・観測関数 ある行動を選択した結果、どの観測に遷移するか(相手がどの手を選ぶか)を観測関数と呼ぶ。 政策と観測関数から、履歴の生起確率が求められる。 ・エピソード 履歴の中で終端まで到達したもの。 ・報酬関数 ある履歴において行動aを選択したとき、直後の報酬がある確率分布に従って得られるとしたもの。  報酬の割引率(遅く勝つより、早く勝つ方が良い)  割引率を加味して、各エピソードの報酬和を評価。 Q: 単純に割り引くことでデメリットは無いか?  ・例えば一時的に負けるが最終的に勝てるような行動履歴は得られる? ・期待報酬と最適policy  報酬関数と履歴の生起確率から期待報酬を求めることができる。  ランダムpolicy→常勝policyへ。   環境<A,O,o(1),θ,R,γ>:固定   V^π=E{R_e|π} を最適化   →いろんな解法がある。 >解法1: direct policy search policy π(h,a)は履歴hと行動aから確率への関数だが、膨大なので近似が必要。 近似の仕方は工夫のしどころ。NNやlog-linearモデル等。 →πがθでパラメトライズされた近似 policyを、π(h,a:θ) や単純にπ(θ)と書く。  勾配法:このままでも計算量多いので更に近似→確率的勾配法。 >言語処理への応用 [Branavan 09] Windowsのヘルプ文章→文書の指示通りにWindowsを操作。 その文章から操作への写像を学習。 観測:文書のみ処理部分の一部+PC画面の情報 行動:PCへのコマンドと、文書のどの部分を処理したかの情報 報酬:操作の正しさをチェックするのは困難なので、工夫。  負の報酬   アイテムに対応していない状況に陥った場合、それ以上操作を続けられない。   行動数。  正の報酬   多くの単語を処理できた場合。 Q: (パッと見だけど)文書を処理する順番は考慮していない? 会場Q: どのぐらい学習を繰り返せば良いのか。仮定をおくことで理論的な終了  タイミングは分かるのか。 A: 最適値が観測できる場合には分かるが、一般的には観測できないので、分からない。 会場Q: 強化学習ではロボットでインタラクションがある時に良く使われているが、  そういうインタラクションが無い場面ではどういう用途に使われている? A: 資料最後にある対話システム [Young 10] が一つの例。バーチャルな世界にモノ  を作っている。バーチャルな世界でも複雑になってくると計算困難なので、擬似  的に最適値を学習させたい。 会場Q: ユーザの反応を取り込んでいる? A: この例では Simulated User を作ってやっている。 会場Q: 言語処理における強化学習の応用として、どの辺りに可能性がありそうか? A: 対話処理では結構使われている。それ以外にも人間が関わるいろんな所に使える  のではないかと、漠然と考えている。 会場Q: 集団での対話は、1対1の対話からやる強化学習とは少し異なるように思うが、  そこは余りやられていないように思う。これはやるべきなのか、やらない方が良いのか。 A: 全てをRLでやろうとするのは大変。表面を見るといろんな情報が入り込んで複雑  に見えるが、うまく抽象化ができれば、例えば質問するとか挨拶するとか、そうい  う単純な形で書けるならRLしやすい。それ以外のケースではRL以外も検討し、  上手く使い分けすることが良いのでは。
(T-b) 3月7日(月) 13:30〜15:00 司会:宮尾祐介(NII)
「形式意味論の考え方とその変遷」戸次大介 氏(お茶の水女子大学)
>背景と形式意味論 自然言語の「意味」は多様な側面があり、直接研究対象とするのは困難。 2文の間に演繹関係があるか。 1文目(包含する方)が真ならば、演繹関係がある副文も真。 これを論理的演繹として定義することが形式意味論の第一ステップ。 形式意味論とは、含意関係を予測・説明する理論。  ・意味的含意  ・会話の含意 >モンタギュー文法(PTQ)[Montague 1973] PTQは形式意味論ではない。→形式意味論である。by @kaleidotheaterさん モンタギューを否定しながらも、PTQのアプローチを参考にしながら厳密な形式意味論をやる。 PTQ:シンタックス+セマンティクス(IL) IL:一階述語論理+様相論理+型付きラムダ計算 *前半20分ぐらいから既についていけてない。。(涙) →ひたすらPTQの気持ち悪さを感じて欲しいというのが趣旨だったらしい。orz PTQ自体は不完全なものだが、 スコープ分析の仕方は面白く未だに似たようなアプローチが多い。 また、これを「de re読み」と「de dicto読み」に応用した点がエライ。 らしい。 初の「構成的意味論」(compositional semantics) を提示することで、 意味論が反証可能になった。 それまではある文→論理式への写像があやふやだったが、 初めて単語レベルからの写像を提示した。 「論理では自然言語が扱えない」という議論に対し、 恐らく初めて提示した論文。 PTQは沢山問題があるが、 反証&修正という歯車が回り始めることで現在の発展につながっている。 "Generalized Conjunction", "Type Raising", etc. 会場Q: センテンス→文章の意味、文と文の意味を扱うことについてどうやったのか。 A: 今回の話は80年代だった。文と文を繋いでしまって一まとまりとして扱うのも  やられているし、どう切り分けるかについても様々なアプローチがある。DRP(?)。  Compositional なDRPが無いかということについては90年代以降やられている。 会場Q: (1)使う立場からすると「分からない」のが大問題で、難し過ぎて使えない。  力学だと古典力学/ニュートン力学・・・と進んでいるが、多くの場合は古典力学  で十分。形式意味論についても、ある程度小さいものならこれぐらいの複雑さでOK  というものがあると助かる。  (2)スコープについて、人間が読んでも良く分からないものもある。自然/不自然言  語処理。良く読むとこういうことかもしれないというものについて、  何かしら考えがあるか。 A: (1)難しいからではなくて、完成していないからだと思う。量子力学やればできる  というような統一された世界が無い。計算的側面も欠けている。全部の現象を考え  ていないから、ブレイクスルーが起きていないのだと思う。統一した瞬間簡単な  ものになると考えているので、そこを目指している。  (2)はっきりとした理論ができた後の話かもしれない。 会場Q: 一般全ての文例を説明することへのチャレンジはとても大切なことだと思う。  その手続きの詳細を理解できる人は少ないかもしれないが、パッケージして使える  ようになれば利用者も増え、発展しやすくなるのでは。 A: 形式意味論で扱っているというのは、分野に限らず全部についてやっている  というより、言語を扱う以上そこを避けて通ることができないのだと思う。  まず「意味」が良く分かっていないから、こういう風にやっている。  そもそも「意味」をどう書くか、どういう振る舞いを持つ演算として書けるか。
(T-c) 3月7日(月) 15:15〜16:45 司会:高村大也(東工大)
「Understanding sentences in Japanese」Edson T. Miyamoto 氏(筑波大学)
どのように文を理解するか。 眼球運動(大人)の場合  単純な環境(pick up the candy)似たオブジェクトcandle  →似た単語のオブジェクトがあると230ms 子供(赤ちゃん)の場合  何度、どのぐらいintensionを持って見るか。  遮るものがあると隠れるという知識の有無。  驚く飽きる Neurolinguistics  brain lesions/fMRI/PET/MEG/EEG Reading times  silent reading -> eye movements not smooth: fixations, saccades  仮説:longer reading times=more difficulty  →Self-paced reading   eye tracking とボタン押した回数とを、文節毎に比較 Human parser  (1) cognitive resources  (2) knowledge bases (grammar, social conventions, world knowledge)  仮説:言語の違いは(2)のみに依存→(2)のみを学習すれば良い。   英語の例   日本語の例   →alternative rules I (head is crucial), II(processing is incremental)    客を(ヲ格)/客に(二格)で他単語を見る頻度(≒他に着目する頻度)が異なる。 How soon is the parent node A built?  英語/日本語といった言語の違いはあるが、  「どのぐらい読み違えるか」は似ている(?)。 Q: え、そうなの? Memory resources  Long-term memory  Working memory Hyakurakan test  cause? consequence? Heavy NP Shift  English: heavy stuff to the end  Japanese: heavy stuff to the begin Metrics: how do you measure distance?  number of words  number of new discourse entities  similarity of the constituents  time elapsed  etc. 青字で書かれたred 会場Q: コンピュータはワーキングメモリが一杯ある。アルゴリズムはみんな一緒  でグラマーが違うという話があったと思うが。 A: ワーキングメモリが多いケースは分からないが、少ないケースは患者さんで多  くいる。文章を作ることは普通にできる。ワーキングメモリが必要なのは読む  ときで、多い人は読むのに苦労しないが、少ない人は読むのに時間がかかる。  読む時間は遅くならないが、正答率が遅いというケースや、正答率は高いが読  み時間をかなり要するというケースもある。 会場Q: 時間がかかるというのはアルゴリズムが違うと考えて良いのか。 A: ある意味で違うと考えても良いと思う。ある範囲で頑張る人も要れば、諦める  人もいる。 会場Q: 英語と対比すると日本語は省略が多いと言われる。言語的に依存している  けれども、世界知識的な所で差が出ているのか、グラマーでは違いが無いけれ  ども、どこでその差が現れていると考えられるのか。 A: 全てを統一的に語ることはできないが、日本語の場合は動詞が最後にくる。  だから省略する方が理解しやすいというのはあるかもしれない。
(T-d) 3月7日(月) 17:00〜18:30 司会:藤田篤(未来大)
「言語生成研究の動向」徳永健伸 氏(東京工業大学)
対話システムの応答をどう作るか。 株価/気象データといった(非)言語情報から生成。 テキストからテキスト生成するのも良い。 評価問題:正解がそもそも用意できない 言語生成のサブタスク  テキスト・プランニング:what to say   内容の決定、構造化  マイクロ・プランニング+表層化:how to say   語選択、集約、参照表現の生成   ad-hocになりがち。   参照表現は比較的問題が定式化しやすい。GRE等。 内容の構造化  一般的な形式化は困難  メッセージ集合を談話関係で構造化: e.g, 修辞構造理論RST→テキストプラン  プランニングに基づく構造化 参照表現の良さ  Incremental Algorithm  冗長すぎない方が良さそうだが、心理言語学的観点から見ると   ・「以外と冗長」 [Deutsch 1982]   ・文脈集合すべてを見ているわけではない [Pechmann 1989]   ・漸進的に作られる 評価  内生的評価/外生的評価  MTに近い側面もあるが、そもそも元の文自体が無い。  入力/出力/尺度/文脈/ベースラインは? 会場Q: 参照表現で、日本語に限って言えば、如何に単語を省略するかということ  があると思うが、そういうことはやられているのか。 A: 日本語で生成やってる人が殆どいないこともあって、殆どやられていない。 会場Q: 内生的評価/外生的評価にあまり相関が無いということが指摘されていたが、  割とくらい気持ちにもなるがどう捉えるべきか。どうすべきか。 A: 外生的評価をやるべき。ただし、コストが高い。 会場Q: 内生的評価のコストが低いなら、そこで頑張る方法もあるのか。 A: 理想としてはそうだが、解析やろうとしてる時点でだいたい「これが欲しい」  という目処が立っていることが多い。決めてしまえば他は見ないというやり方  もあり得る。ただし、それ以外が×かというと、フェアな評価とは言えない。  ちゃんとした使う環境で評価することが大切。 会場Q: CGだと生成も解析もどちらも大切なタスクとしてやられているが、  言語ではなぜそこまでやられていないのか。 A: 見栄えの問題が大きい。学生から見ても地味。視覚よりも更に違いが分かり  難いという側面もある。 会場Q: 意味表現が難しいとかそういうことも影響している? A: それも当然ある。対話と密接な関係があり、インタラクションしている中で  それをどう表現するのか等様々なタスクがあり、その先に何があるのか見え  難く、手を付け難いという敷居の高さがあると思う。
更新ログ

NLP2011で気になる発表タイトルをピックアップ→絞り込み失敗

火曜日, 3月 1st, 2011

言語処理学会第17回年次大会(NLP2011)で気になる発表をメモ。

NLP年次大会への参加自体が初めてなんですが、当初予想してたより遥かに規模が大きい。ちょっとした研究会レベル(並列セッションあっても2,3で、1-2日終了するぐらい)を想像してたのですが、6並列*3日間+チュートリアル1日+併設ワークショップ1日とやらで合計5日間ぎっしり詰まる規模らしい。大きすぎるよw

ということで、実際に話を聞くセッションを絞るために取りあえずリストアップしてみました。

リストアップした結果、適当なセッションに突撃しても大抵興味がある話が聞けそうな雰囲気。こっち方面に足を踏み出したばかりだから興味が絞りきれてない気もしますが、ある一つの課題なりに絞ったとしてもそれを実現するためにあれもこれもと複合的に課題が山積みになりやすいテーマなだけかも。という気もします。

全日程参加の方向なのは良いとして、どのセッションに参加するか悩むな。


>3/7(月), チュートリアル
(T-a) 3月7日(月) 11:00〜12:30 司会:高村大也(東工大)
「強化学習の基礎と言語処理への応用」伊藤秀昭 氏(佐賀大学)

(T-c) 3月7日(月) 15:15〜16:45 司会:高村大也(東工大)
「Understanding sentences in Japanese」Edson T. Miyamoto 氏(筑波大学)

(T-d) 3月7日(月) 17:00〜18:30 司会:藤田篤(未来大)
「言語生成研究の動向」徳永健伸 氏(東京工業大学)

(協賛ワークショップ)第5回音声ドキュメント処理ワークショップ
13:00-14:00 特別講演 †
「映像内容解析ならびに検索技術の最近の動向 -TRECVIDを中心として-」佐藤真一教授(国立情報学研究所)


>3/8(火), 本会議第1日
A1:知識獲得   3月8日(火) 09:30-12:10 A1-101教室  座長: 岡崎直観 (東大)
A1-1 専門語彙を手がかりとした知識構成の展開ー生命科学分野を例にー
○浅石卓真, 影浦峡 (東大)
A1-3 Wikipediaの編集履歴を用いた書き換えパターンの抽出
○金山博, 荻野紫穂 (日本IBM)
A1-4 数式の網羅的な生成による新たな類似尺度の発見と評価
○皆川歩, 岡部正幸, 梅村恭司 (豊橋技科大)
A1-6 意味的類似度を用いたWeb文書からの集合拡張
○萩原正人, 関根聡 (楽天)

B1:Web応用   3月8日(火) 09:30-12:10 A2-101教室  座長: 吉岡真治 (北大)
B1-3 大規模Web情報分析のための分析対象ページの段階的選択
○赤峯享 (NICT/NAIST), 加藤義清, 川田拓也, レオン末松豊インティ (NICT), 河原大輔 (京大/NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT)
B1-4 情報分析システムWISDOMのユーザ評価とその分析
○川田拓也 (NICT), 赤峯享 (NICT/NAIST), 河原大輔 (京大/NICT), 加藤義清 (NICT), 乾健太郎 (東北大/NICT), 黒橋禎夫 (京大/NICT), 木俵豊 (NICT)
B1-6 Web文書の時間・論理関係分析に基づく情報信頼性判断支援システムの開発と実証実験
○岡嶋穣, 河合剛巨, 中澤聡 (NEC), 村上浩司 (楽天), 松吉俊, 水野淳太 (NAIST), エリック・ニコルズ, 渡邉陽太郎, 乾健太郎 (東北大), 渋木英潔, 中野正寛, 宮崎林太郎, 石下円香, 森辰則 (横浜国大)

C1:テキスト・データマイニング   3月8日(火) 09:30-12:10 A1-201教室  座長: 新里圭司 (京大)
C1-2 全部分文字列のクラスタリングとその応用
○岡野原大輔 (PFI)
C1-3 類似論文からの関連用語抽出による論文検索支援システムの提案
○南浦佑介, 新美礼彦 (未来大)

D1:音声言語処理   3月8日(火) 09:30-12:10 A2-201教室  座長: 秋葉友良 (豊橋技科大)
D1-3 質問応答対の増加による精度低下及び速度低下を軽減する選択手法
○井上僚介, 黒澤義明, 目良和也, 竹澤寿幸 (広島市立大)

E1:評判・感情解析   3月8日(火) 09:30-12:10 A1-301教室  座長: 木村俊也 (mixi)
E1-3 評価文書分類における異言語翻訳データの利用法
○乾孝司, 山本幹雄 (筑波大)
E1-6 Web上の誹謗中傷を表す文の自動検出
○石坂達也, 山本和英 (長岡技科大)

F1:テーマセッション1: 複合辞とモダリティ:理論から応用まで   3月8日(火) 09:30-12:10 A2-301教室  座長: 泉朋子 (NTT)
F1-2 伝聞のモダリティと文法化
○金城由美子 (長崎純心大)
F1-6 代表・派生関係および用例を利用した日本語機能表現の解析
○鈴木敬文, 宇津呂武仁 (筑波大), 松吉俊 (NAIST), 土屋雅稔 (豊橋技科大)

P1:ポスター(1)   3月8日(火) 14:30-16:00 A棟ホール
P1-8 「本との出会い」を支援するシステム
○館野紅理奈, 浦谷則好 (工芸大)
P1-11 Blenderを用いた自然言語による3次元コンピュータグラフィックス
○中畑敦夫, 伊藤秀昭, 福本尚生, 和久屋寛, 古川達也 (佐賀大)
P1-12 意見の重要度と客観的補足情報を考慮したレビュー要約
○唯野良介, 嶋田和孝, 遠藤勉 (九工大)
P1-13 直接調停要約自動生成システムHERMeSの言論マップとの連携
○石下円香, 渋木英潔, 中野正寛, 宮崎林太郎, 永井隆広, 森辰則 (横浜国大)
P1-14 直接調停要約自動生成システムHERMeSの対比表現を用いた精度向上
○永井隆広, 渋木英潔, 中野正寛, 石下円香, 宮崎林太郎, 森辰則 (横浜国大)
P1-15 文外照応を含む文の検出による抽出型要約の品質向上
○西川仁, 長谷川隆明, 松尾義博, 菊井玄一郎 (NTT)
P1-16 テキストの内容を表す記述要素の自動生成手法の検討
○久保木武承, 山本和英 (長岡技科大)
P1-17 検索要求顕在化のための「喩え」の利用
○久保真哉, 桝井文人 (北見工大), 福本淳一 (立命館大)
P1-18 QAサイトにおける専門用語を用いた最適な回答者提示
○堀江将隆, 山本和英 (長岡技科大)
P1-20 研究者および研究分野の変遷の自動推定
○堀さな子, 村田真樹, 徳久雅人 (鳥取大), 馬青 (龍谷大)
P1-21 不具合事例からの因果関係抽出に向けた実体性のある名詞の抽出手法の検討
○大森信行, 森辰則 (横浜国大)
P1-23 修辞ユニット分析からみたQ&Aサイトの言語的特徴
○田中弥生, 佐野大樹 (国語研)
P1-24 回答の根拠を提示する意思決定支援型の質問応答システム
○佐々木智 (筑波大), 藤井敦 (東工大)
P1-25 Q&Aサイトの回答から取り出した質問に書くべき情報の特殊さの推定
○谷口祐亮, 小島正裕, 西村涼, 渡辺靖彦, 岡田至弘 (龍谷大)
P1-27 Web文書の時系列分析に基づく意見変化イベントの抽出
○河合剛巨, 岡嶋穣, 中澤聡 (NEC)
1-31 マイクロブログにおけるユーザのクラスタリングとそのクラスタの特徴語抽出
○畑本典宣, 黒澤義明, 目良和也, 竹澤寿幸 (広島市立大)

P2:ポスター(2)   3月8日(火) 16:30-18:00 A棟ホール
P2-3 機械学習を用いた表記選択の難易度推定
○小島正裕 (龍谷大), 村田真樹 (鳥取大), 南口卓哉, 渡辺靖彦 (龍谷大)
P2-7 日本語格解析において問題となり得る諸現象の定量的分析
○花岡洋輝, 松崎拓也 (東大), 宮尾祐介 (NII), 辻井潤一 (東大)
P2-23 公的文書に対する「やさしい日本語」換言辞書作成のための調査
○杢真奈見, 山本和英 (長岡技科大)


>3/9(水), 本会議第2日
A2:言語学(1)   3月9日(水) 09:00-11:50 A1-101教室  座長: 黒田航 (京工芸繊大/早大)
A2-6 語を構成単位としない統語論に向けて: パターン束モデルを用いた文構造記述の理論と応用
○吉川正人 (慶大/学振)

B2:テーマセッション4: Twitterと言語処理   3月9日(水) 09:00-11:50 A2-101教室  座長: 東中竜一郎 (NTT)
B2-2 マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案
○向井友宏, 黒澤義明, 目良和也, 竹澤寿幸 (広島市立大)
B2-3 Twitterからの個人の行動に起因するトラブル予測システムの試作
○隅田飛鳥, 服部元, 小野智弘 (KDDI)
B2-4 マイクロブログサービスの返信行動に着目した投稿及びユーザの分類
○黒澤義明, 竹澤寿幸 (広島市立大)
B2-6 Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出
○鈴木啓太, 新美礼彦 (未来大)
パネル討論: Twitter情報を活用したサービスの現状と課題
パネリスト 大角知孝 (NTTコミュニケーションズ) ,岡野原大輔 (PFI),榊剛史(東大),辻村浩(沖電気),横田真俊(Twitter解説書著者),西谷智広(Twitter研究会)

C2:文書分類・要約   3月9日(水) 09:00-11:50 A1-201教室  座長: 高村大也 (東工大)
C2-2 WEB上の言語資源に基づく国会議員の分類
○東宏一, 橋本悠, 掛谷英紀 (筑波大)
C2-6 文書内の事象を対象にした潜在的トピック抽出手法の提案とその応用
○北島理沙, 小林一郎 (お茶大)
C2-7 直接調停要約自動生成システムHERMeSの実装と性能評価
○中野正寛, 渋木英潔, 宮崎林太郎, 石下円香, 永井隆広, 森辰則 (横浜国大)
C2-8 ラベル伝播による他言語資源の利用と転移学習を用いた重要文抽出システム
○天野禎章, 横山晶一 (山形大)

D2:情報抽出(1)   3月9日(水) 09:00-11:50 A2-201教室  座長: 関洋平 (筑波大)
D2-1 自動獲得した上位下位関係の詳細化
○山田一郎, 橋本力, 呉鍾勲, 鳥澤健太郎 (NICT), 黒田航 (京工繊大/早大), De Saeger Stijn, 土田正明, 風間淳一 (NICT)
D2-2 共起語グラフのクラスタリングによる単語の多義性抽出
○鏑木雄太, 古宮嘉那子, 小谷善行 (東京農工大)
D2-3 レビューからの商品比較表の自動生成
○相川直視 (早大), 山名早人 (早大/NII)
D2-4 複数文にまたがる関係抽出における構文情報の効果
○三浦康秀, 外池昌嗣, 大熊智子, 増市博 (富士ゼロックス), 篠原(山田)恵美子, 荒牧英治, 大江和彦 (東大)
D2-5 地方自治体の例規比較に用いる条文対応表の自動生成
○竹中要一 (阪大), 若尾岳志 (独協大)
D2-6 数式検索のための数式周辺テキストの言語解析手法
○横井啓介 (東大), Nghiem Minh (総研大), 松林優一郎 (NII), 相澤彰子 (東大)

E2:意味解析   3月9日(水) 09:00-11:50 A1-301教室  座長: 乾健太郎 (東北大)
E2-2 動詞と名詞の連想に基づいた換喩解析法の提案
○寺岡丈博, 岡本潤, 石崎俊 (慶大)
E2-4 段階的文脈拡張による多義性解消
○黒川勇輝, 新里圭司, 黒橋禎夫 (京大)

P3:ポスター(3)   3月9日(水) 16:30-18:00 A棟ホール
P3-4 語の共起を効率的に検索できる日本語作文支援システム「なつめ」の紹介
○阿辺川武 (NII), ホドシチェク・ボル, 仁科喜久子 (東工大)
P3-6 作文授業における引用技術習得を支援する手法の提案
○山口昌也 (国語研), 北村雅則 (名古屋学院大)
P3-7 作文支援システムを使った「引用」学習課題の導入と展開
○北村雅則 (名古屋学院大), 山口昌也 (国語研)
P3-8 短答式記述答案の採点支援ツールの開発と評価
○中島功滋 (ベネッセ/CRET)
P3-9 ホームページの多言語化に向けた機械翻訳とコミュニティによる後編集の活用
○相川孝子 (MSR), 井佐原均 (豊橋技科大)
P3-10 汎用アノテーションツールSlate
○Dain Kaplan, 飯田龍, 徳永健伸 (東工大)
P3-13 物語生成システムにおける物語言説機構の開発と評価
○秋元泰介, 小方孝 (岩手県立大)
P3-31 議論熟練者による話し合いの評価に影響を与える言語行動の分析
○水上悦雄 (NICT), 森本郁代 (関西学院大), 大塚裕子 (IBS), 鈴木佳奈 (広島国際大), 柏岡秀紀 (NICT)
P3-32 日本語フレームネットの全文テキストアノテーション: BCCWJへの意味フレーム名付与の試み
○小原京子 (慶大)


>3/10(木), 本会議第3日
A3:言語資源・コーパス   3月10日(木) 9:00-11:50 A1-101教室  座長: 河原大輔 (京大)
A3-2 語彙概念構造による意味役割の形式化と複数役割の割り当て
○松林優一郎, 宮尾祐介, 相澤彰子 (NII)

B3:生成・言い換え   3月10日(木) 9:00-11:50 A2-101教室  座長: 藤田篤 (未来大)
B3-2 発表スライドの構造的・言語的解釈に基づく発話生成
○荒井翔真, 柴田知秀, 黒橋禎夫 (京大)
B3-5 Web上の定義文からの言い換え知識獲得
○橋本力, 鳥澤健太郎, De Saeger, Stijn , 風間淳一 (NICT), 黒橋禎夫 (京大)

C3:情報抽出(2)   3月10日(木) 9:00-11:50 A1-201教室  座長: 風間淳一 (NICT)
C3-2 書評利用のレコメンデーションを目的とする書評検索システムのためのキーワード抽出
○越本和季, 酒井浩之, 増山繁 (豊橋技科大)
C3-8 L1正則化特徴選択に基づく大規模データ・特徴集合に適した半教師あり学習
○鈴木潤, 磯崎秀樹, 永田昌明 (NTT)

D3:機械翻訳(1)   3月10日(木) 9:00-11:50 A2-201教室  座長: 磯崎秀樹 (NTT)
D3-1 階層的モデルを用いた機械翻訳のためのフレーズアライメント
○Neubig, Graham (京大/NICT), 渡辺太郎, 隅田英一郎 (NICT), 森信介, 河原達也 (京大)
D3-4 A Term Translation System Using Hierarchical Phrases and Morphemes
○呉先超, 辻井潤一 (東大)
D3-8 文書文脈を用いた翻訳精度、速度の改善
○大西貴士, 内山将夫, 隅田英一郎 (NICT)

E3:テーマセッション2: 不自然言語処理 枠に収まらない言語表現の処理(1)   3月10日(木) 9:00-11:50 A1-301教室  座長: 村上浩司 (楽天)
E3-3 「不自然言語処理コンテスト」第1回開催報告
○萩原正人 (楽天), 大原一輝 (フリー), 水野貴明 (バイドゥ), 橋本泰一 (東工大), 荒牧英治 (東大), 竹迫良範 (サイボウズ)
E3-4 ウェブからの疾病情報の大規模かつ即時的な抽出手法
○荒牧英治 (東大), 森田瑞樹 (医薬基盤研究所), 篠原(山田)恵美子, 岡瑞起 (東大)
E3-5 データ圧縮率を用いるテキストアート抽出法におけるテキストの正規化手法
○鈴木徹也 (芝浦工大)
E3-6 感情推定における若者言葉の影響
○松本和幸, 任福継 (徳島大)
E3-7 教師付き外れ値検出による新語義の発見
○新納浩幸, 佐々木稔 (茨城大)
E3-8 定型から逸脱した言語表現の分析
○土屋智行 (京大/学振)

F3:情報検索   3月10日(木) 9:00-11:50 A2-301教室  座長: 鶴岡慶雅 (JAIST)
F3-3 特許の先行技術調査における集合知の循環
○橋田浩一 (産総研), 藤井敦, 岩山真, 橋本泰一 (東工大), 乾孝司 (筑波大), 難波英嗣 (広島市立大)
F3-7 Toward Evidence Search
○Nichols, Eric (東北大), Mizuno, Junta (NAIST), Watanabe, Yotaro, Inui, Kentaro (東北大)
F3-8 共著者ネットワークによる書誌検索の高度化
○野本忠司 (国文研)

A4:語彙・辞書   3月10日(木) 13:00-15:30 A1-101教室  座長: 影浦峡 (東大)
A4-5 オノマトペを言い換える表現の自動収集
○古武泰樹, 佐藤理史, 駒谷和範 (名大)
A4-6 Wikipediaからの大規模な汎用オントロジー構築
○柴木優美 (長岡技科大), 永田昌明 (NTT), 山本和英 (長岡技科大)

B4:対話・文脈処理   3月10日(木) 13:00-15:30 A2-101教室  座長: 駒谷和範 (名大)
B4-1 POMDPを用いた聞き役対話システムの対話制御
○目黒豊美, 東中竜一郎, 南泰浩, 堂坂浩二 (NTT)
B4-2 対話型e-Learningシステムの開発
○峯脇さやか (弓削商船高専), 嶋田和孝, 遠藤勉 (九工大)
B4-3 共通状態と連結学習を用いたHMMによるコールセンタ対話の要約
○東中竜一郎, 南泰浩, 西川仁, 堂坂浩二, 目黒豊美, 小橋川哲, 政瀧浩和, 吉岡理, 高橋敏, 菊井玄一郎 (NTT)
B4-4 コールメモを利用したコールセンタ向け音声対話要約方式の提案
○田村晃裕, 石川開 (NEC)
B4-5 Toward Plan Recognition in Discourse Using Large-Scale Lexical Resources
○Naoya Inoue (東北大/学振), Kentaro Inui (東北大)
B4-6 視線情報を利用した協調作業対話における参照解析
○安原正晃, 飯田龍, 徳永健伸 (東工大)
B4-7 直接照応解析における分野情報および文脈情報の有効性検証
○浜田伸一郎, 齋藤佳美 (東芝ソリューション)

C4:テーマセッション3: 日本語入力における言語処理(1)   3月10日(木) 13:00-15:30 A1-201教室  座長: 鈴木久美 (MSR)
C4-1 病理診断報告書作成のためのオントロジーを利用したテキスト入力支援
○橋本泰一 (東工大), Tam, Wailok (東大), 鷹合基行 (富士ゼロックス), 荒牧英治, 宇於崎宏 (東大), 橋田浩一 (産総研)
C4-5 大規模日本語ブログコーパスにおける言語モデルの構築と評価
○奥野陽, 颯々野学 (ヤフー)

D4:機械翻訳(2)   3月10日(木) 13:00-15:30 A2-201教室  座長: 隅田英一郎 (NICT)
D4-3 二部グラフ上のランダムウォークによる言語横断関連語の抽出手法
○ルディー・レイモンド, 坪井祐太 (日本IBM), 張耀中 (東大), 那須川哲哉 (日本IBM)
D4-4 構造を持った定型表現の自動獲得と機械翻訳での利用
○望月道章, 中澤敏明, 黒橋禎夫 (京大)

E4:テーマセッション2: 不自然言語処理 枠に収まらない言語表現の処理(2)   3月10日(木) 13:00-15:30 A1-301教室  座長: 荒牧英治 (東大)
E4-1 テキストに基づく違法有害記事の削除作業支援方式
○笠原要, 藤野昭典, 永田昌明 (NTT)
E4-4 Web上の多彩な言語表現バリエーションに対応した頑健な形態素解析
勝木健太 (京大), 笹野遼平 (東工大), ○河原大輔, 黒橋禎夫 (京大)
E4-5 大規模添削コーパスを用いた統計的機械翻訳手法による日本語誤り訂正
○水本智也, 小町守, 松本裕治 (NAIST)
E4-7 分布類似度判定における文脈の特徴量の比較と評価法に関する研究
○増山篤志, 梅村恭司, 岡部正幸 (豊橋技科大)

F4:言語学(2)   3月10日(木) 13:00-15:30 A2-301教室  座長: 小磯花絵 (国語研)
F4-4 比喩表現に属性が明示された場合の比喩性に与える影響とコンピュータモデルの検討
○田添丈博 (鈴鹿高専), 椎野努 (愛工大)

A5:教育応用   3月10日(木) 15:50-18:20 A1-101教室  座長: 田中久美子 (東大)
A5-1 学習指導要領に立脚した児童作文自動点検システムの実現
○藤田彬, 田村直良 (横浜国大)
A5-3 翻訳教育向け「みんなの翻訳」
○影浦峡 (東大), Thomas, Martin (Leeds大), 阿辺川武 (NII), 内山将夫, 隅田英一郎 (NICT), Hartley, Anthony (Leeds大)

B5:構文解析   3月10日(木) 15:50-18:20 A2-101教室  座長: 渡邉陽太郎 (東北大)
B5-4 木構造に基づく決定的係り受け解析
○北川浩太郎, 田中久美子 (東大)
B5-6 ベイズ学習による木接合文法獲得
○進藤裕之, 藤野昭典, 永田昌明 (NTT)

C5:テーマセッション3: 日本語入力における言語処理(2)   3月10日(木) 15:50-18:20 A1-201教室  座長: 工藤拓 (グーグル)
C5-4 頻出文脈に基づく分野依存入力支援
○海野裕也, 坪井祐太 (日本IBM)

E5:テーマセッション2: 不自然言語処理 枠に収まらない言語表現の処理(3)   3月10日(木) 15:50-18:20 A1-301教室  座長: 竹迫良範 (サイボウズ)
E5-1 並列疑似エラー補正法に基づく「破格」な言語表現の(疑似)解釈
○黒田航 (京工繊大/早大)
E5-2 誤字脱字や伏字を許容する近似辞書照合技術
○齋藤邦子, 今村賢治, 松尾義博, 菊井玄一郎 (NTT)
E5-3 評判情報の検索における隠語の生成と順位付け
○太田裕貴, 藤井敦 (東工大)


>3/11(金), 併設ワークショップ
ワークショップ: 「自然言語処理における企業と大学と学生の関係」
ホームページ: http://nlp.cs.nyu.edu/gengo2011ws

ウェブ学会シンポジウム@東京大学 本郷キャンパス 安田講堂

土曜日, 12月 19th, 2009

ウェブ学会シンポジウム

東大構内

ウェブ学会シンポジウム

ウェブ学会シンポジウムの様子は上記リンクを参照ください。
twitterふぁぼったーでハッシュタグ webgakkai で検索すると、その後の様子もちらほら見れますね。

一種のお祭り的なイベントでしたが、参加することで体感できたこともあり、大変有意義なシンポジウムでした!


マトンマサラカレー&ゴマナン@ネパール・インド料理ナマステ タンメン&焼き餃子@歓迎本店

ネパール・インド料理ナマステ(マトンマサラカレー&ゴマナン)
歓迎本店(タンメン&焼き餃子)

カレーは本郷駅近くの適当なお店に入ったのですが、旨い。
適当に歩いて美味しいカレー屋が見つかるのはうらやましい環境だよね。

餃子は、蒲田駅近くにある歓迎本店。
小龍包チックにスープが種に入っていて、グッド!

その他食べてきたものリスト:
(観光/お食事) カボチャほうとう@小作、信玄公巡り
(お食事) 甲州ワインビーフ@甲府湯村温泉郷・楽水園
(お食事) トマトラーメン@太陽のトマト麺

(FAN2009) day0: イノベーション・ジャパン@東京国際フォーラム、会津若松

水曜日, 9月 16th, 2009

FAN2009のため、今日から出張です。

今日は移動日で、ついでに東京国際フォーラムでやってたイノベーション・ジャパンを覗いてきました。

関連URL:


イノベーション・ジャパンでの展示概要

イノベーション・ジャパン2009

ITブースしか見てないんですが、面白いと思ったのをいくつかピックアップすると。。。

  • [I-17] 日本女子大学の「動画を対象とした光検索エンジン」。
  • のは光ディスクに記録した模様から画像検索するとかいうやつ。担当者が良くわかってなかったので聞いても良くわからなかったんですが、フィンガープリント以上に利用できるのなら面白そう。

  • [I-34] 京都産業大学の「情報の質を見極める情報比較技術」。
  • 要は自分の好みをプロファイルとして用意してあげればそれに近いものを探しますよというパーソナライゼーション技術を料理レシピに応用してみた、というやつ。

  • [I-09] 群馬工業大学の「まちづくりのための公共空間向けインタラクティブミュージックシステム M[you]sic」。
  • 赤外線焦電センサで人通り状況を取得し、推定した状況に対応した音楽を流すというやつ。

  • [I-06] 会津大学の「会話を通して日々成長できる文書解析支援システム」
  • は、まぁマッチングの場としてなら良いけどね、という内容しか出してなくて、残念。

  • [I-36] 国際日本文化研究センターの「GLOBALBASE: 自立分散型ネットワークGIS基盤ソフトウェア」
  • は話を聞きたかったのだけど、時間無くなって聞けませんでした。

トマトチキンカレー@PLANET 3rd TOKYO

昼食: トマトチキンカレー@PLANET 3rd TOKYO

流石にお昼時は殆どの店で長蛇の列。。。
あまり時間無かったので列が無いお店に突入。
カレーそのものは普通でしたが、サラダとオニオンフライを考慮した全体の満足感は結構良かったです。


会津若松入り
東京からは、東京駅→郡山乗換え→会津若松の行程で、乗換え時間含めなくても3時間弱の乗車時間になります。やっぱり遠いですね。

一期一会そば祝膳@一會庵

こづゆ(会津のお祝いのお吸い物) 棒鱈(ぼうだら)(干鱈の甘露煮) 鰊(にしん)の山椒漬け 手打ち蕎麦 サンつがる(りんご)、べこの乳

夕食: 一期一会そば祝膳@一會庵

手打ち蕎麦のお店で、小料理で郷土料理が食べれるお店。
折角なのでセットであれこれついてるやつにしました。
天ぷらにも地元素材が含まれていて、細長いヤツは「会津薬用人参」。
それっぽい苦さがありますw
汁物は「こづゆ(会津のお祝いのお吸い物)」らしい。
魚ものが2種類付いてますが、
手前の「棒鱈(ぼうだら)(干鱈の甘露煮)」が美味!
奥の「鰊(にしん)の山椒漬け」は、普通。
郷土料理としてどのぐらいのものか分かりませんが、あれこれ食べる事で来たので満足!

最後の写真は地元産地になってた「サンつがる(りんご)」、べこの乳です。
その隣は文字通り地元のものではなく、北海道フェアしてたので買っただけですw

(Ref/提言) Web 3.0 = Decentralized me by Robert O’Brien

金曜日, 7月 17th, 2009

(出典: 非集中的Webアイデンティティとペルソナ ―「私」中心のWebと OpenID, OAuth―, 山崎重一郎, 人工知能学会誌 Vol.24, No.7, pp.519-526, 2009/7

3. Web 3.0 時代のアイデンティティ
 2007年4月にネット上で行われた “Define Web 3.0 Contest” で勝者として選ばれた Robert O’Brien は,Web の進化を次のような象徴的な言葉で表現している.

  • Web 1.0 = Centralized them
  • Web 2.0 = Distributed us
  • Web 3.0 = Decentralized me

Web の三つの時代は,それぞれ次のように説明することができる.

3.1 Web 1.0 = 集権的な彼ら
(省略)
3.2 Web 2.0 = まき散らされた私達
(省略)
3.3 Web 3.0 = 非集中的な私
(省略)

Robert O’Brien 氏のブログ記事が書かれたのは2007年4月.その時期から OpenID とか,それに類似したサービスが提案され,少しずつ実現して来ていますね.

今から2年後,5年後,10年後の未来をどう思い描くか.
具体的な期日はなくとも,夢を描いてそれを実現するように歩んで行きたいですね.

(Ref) 人工知能学会誌 Vol.24, No.7, 2009/7

金曜日, 7月 17th, 2009

人工知能学会誌 Vol.24, No.7, 2009/7
で気になった記事・論文タイトルの備忘録メモ.いわゆる「後で読む」リストw

  • 2008年度 研究会優秀賞より
    • 「弱い紐帯の概念を利用したWWW上からの情報抽出手法の提案」珍田 計幸,大沢 英一

      [ アブスト ]

    • 「認知モデルの実装による認知科学の入門的授業実践」三輪 和久,中池 竜一,森田 純哉,寺井 仁
  • 特集「WebアイデンティティとAI」より
    • アイデンティティ管理関連技術の進展と変遷, 下江達二
    • Webにおけるアイデンティティとセマンティックスの表現と利用, 武田英明
    • 非集中的Webアイデンティティとペルソナ ―「私」中心のWebと OpenID, OAuth―, 山崎重一郎
    • アイデンティティを推定する, 小山聡
    • 人物情報クラウドとその未来, 山川宏・飯島泰裕・岡本泰次
  • 論文誌掲載リストより
    • 社会課題発見のための文書クラスタリングとクラスタ評価指標. 人工知能学会論文誌, Vol.24, No.4, pp.333–338, 2009. 内海和夫, 乾孝司, 橋本泰一, 村上浩司, 石川正道
    • Web文書を対象とした質問の型に依らない質問応答手法. 人工知能学会論文誌, Vol. 24, No. 4, pp. 339–350, (2009). 石下円香, 森辰則