Posts Tagged ‘IPSJ’

情報処理学会 第74回全国大会 を振り返る

土曜日, 3月 10th, 2012

情報処理学会 第74回全国大会が日程上終了しました。

上記レポートでは基本的に質疑応答を中心とした備忘録がメインでした。

この記事では、「聴講した発表」で興味深かった内容等について整理します。

整理といってもピックアップしながら何が面白かったか(どういう視点で見てたのかとか)をコメントとして残しておくだけですが、いろんな視点があるんだよということをこの記事読んでる学生に少しでも伝わると嬉しい。

Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents ○ Yimin Chu(東大),高須淳宏,安達 淳(国立情報学研)
PDFが与えられた時に機械的に「意味的に繋がりのある箇所をグルーピングしていく」という話。目新しさは感じなかったけど、人工頭脳プロジェクトみたいなケースでの「用紙を見たときに論理構造を自動で抽出したり、図表イメージ等を説明文と紐付けて解釈する」ところでは必要になる技術だよなという点で「残されてる課題」が何なのか気になりました。図と説明文を紐付ける方は、NIIの「テキストからの物理モデル生成に向けて」で話を聞けると思うので、楽しみ。

中学校レベルの数学の文章題を解くシステム ○箕村大輔(電機大)
同様に人工頭脳プロジェクトを意識して聞いてました。この発表は「(有理数の演算で解くタイプの)文章題を解く」というソルバ自体の提案。この手のアプローチにおける根っこは数理論理学で、実際にテキスト解析しながら論理式&論理記号に変換するところをやってるという理解で合ってるのかな。そうだとして、似たようなアプローチが多々あるんだろうけど、既存アプローチでの問題点などが気になるのと、「直接文章には現れない【常識を加える】ことで不足知識を補う」ところを手動でやってるところは残念。いや、手動でやっても良いとけど、対象としてる「中学校レベル」では(a)どのぐらいの数が必要なのかが想定できているのか、(b)そもそも時間かければ解決できる問題なのかといった意味での「記述可能性」が気になる。

質問応答システムにおける再検索を用いた回答候補の抽出手法 ○油井宣明,福本淳一(立命館大)
アプローチはともかく「ユーザがシステムに入力した質問文中に情報が不足している場合」という視点に共感を覚えました。全部が全部じゃないですが「特徴ベクトルで類似度云々」という話であれこれ処理しようとしてると「どういう処理であれ特徴ベクトルが適切に構築されている」という前提が必要になるんですが、そうじゃなくて「不適切だったら適切になるよう作り直そう。必要なら情報源広げよう(バイアス/縮小/集中しよう)」という設計指針で動くシステムであっても良いわけで。

冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化 ○佐藤裕也,豊田哲也,延原 肇(筑波大)
一種の要約・サマリ生成タスクだと思いますが、こういう「まとめる」タスクにおいて「何を除外するか、どういう視点でグルーピングするか」といったことまで含めて半自動化で指示しながら整理できると嬉しそう。

マイクロブログ上の中心的話題とそれに対するユーザの反応の抽出 ○藤川智英,鍜治伸裕,吉永直樹,喜連川優(東大)
Google trendsbuzztterを合わせたような話。堀川くんがやってるテーマに近いですが、こういう話を聞くと抽出漏れや痒い所への手の届き難さが気になってしまいます。2chまとめサイトみたいなものでも良いですが、まとめる人(システム)毎の面白さがあって良いと思いますが、ユーザが操作できる余地を用意できないかなーと。

準天頂衛星を用いた防災情報配信システムの設計と有効性検証に関する研究 ○原田貴史,石田剛朗,楠田哲也,神武直彦(慶大)
めちゃくちゃ細い回線上に一方通行な回線(約6秒に1回250bit程度)だけど、アジア・オセアニア全域カバーできることもあって、何かしら防災に役立てられないかという話。具体的なオペレーションが(多分)設計できてないようですが、グリニッジ標準時みたいに何かしら世界標準規格化できると便利になりそうな予感。

日本語のやさしさの自動推定のための特徴量に関する基礎的検討 ○張  萌,伊藤彰則(東北大),佐藤和之(弘前大)
日本人の観点で作られた「やさしさ」が本当にそう感じられるのかが分からないということで、実地調査含めた検討をしたいという話。原語と意味や発音が異なることが多い「外来語」が「やさしさ」に比較的相関しているとのこと。「理解する/誤解を生じ難い文章」という観点での「自然らしい文」が推定・自動生成できるようになると嬉しいよね。

文字列間の前処理付きオフライン全文検索エンジン類似度距離 ○佐藤 哲(楽天)
「消費者-広告代理-出品者」という3者間のマッチングを改善するため、「消費者が検索時に入力する任意の文字列」と「出品者が用意するコンテンツ」のマッチング精度向上したいという話。去年発表したという「対象分野に特化した類似度計算」(多分これ)の続きで、記憶容量&計算コストを改善したらしい。情報源依存でスコアが異なるので類似度の適切さについても要検証だと思うけど、なるべく汎用性のある類似度したいならGoogle辞書なり使うだけでOKという立場で、ドメイン/コミュニティ特化類似度みたいなのを目指しているっぽい。

係り受け構造アライメントを用いた文間の差異箇所認識 ○小林幹門,篠崎政久,加納敏行(東芝ソリューション)
開発ドキュメントなど、文書間の不整合箇所を確認する作業に膨大な時間と人的コストが大きいし、修正する度不整合箇所発見タスクが生じて以下略な状態なのをなんとか簡素化したいという話。現場ならではの具体的なタスクだよね。去年のNLP年次大会で聞いた実務翻訳で耳にした翻訳メモリと類似タスクにも見えるのだけど、どの辺りに違いがあるのかしら。

複雑ネットワークからのキーワード抽出 ○三澤英樹,大沢英一(はこだて未来大)
コーパスを使用しないキーワード抽出という視点は面白いけど、こういうアプローチで「抽出されたキーワード」というのはどういう特性を有するのだろう。普通、「特徴的な」とか「良く使われる」とか何かしら相対的な特徴があって初めて「このコンテンツならではの特徴」というのが見えてくると思うのだけど。

知的ヘルプシステムのための意味を考慮したテキストマッチング手法の改良と評価 ○柿間俊高,村松幸樹,杉本 徹(芝浦工大)
語彙的マッチングのアプローチとして、「概念付与+係り受け解析+深層格付与」という流れに「なるほどー」と思いながら聞いてました。ちゃんとした評価までやれてないようですが、割とざっくりとした方法でも十分な結果が得られたりするのかしら。

ストーリー性を考慮した映画あらすじからの類似度計算 ○村手宏輔,黒岩眞吾,堀内靖雄,篠崎隆宏(千葉大)
「あらすじ」というコンテンツを「語彙的な類似度+ストーリー性の類似度」で検索したいという話。実際問題としてあらすじマッチングがどれぐらい有益かは分かりませんが、時系列データとしてのマッチングに「語彙的な意味も加味」している点が面白い。語彙は「映画のジャンル20種程度を素性とする特徴ベクトル」として表現していた気がして、TFIDFみたいな「コンテンツ毎に特徴量が異なる」形式ではなく固定値での扱いでした。それにも関わらず、ストーリー性をDPマッチングで考慮することでマッチング精度としては向上しているらしい。どちらの要因がより強いのかも気になりますが、とても面白い試み。

共起ネットワークを用いたクラスタ性によるテキスト分類○小林雄太,村上裕一,中村真吾,橋本周司(早大)
クラスタ係数に基づく分析で「テキスト分類」できないかという話。ちょっと無理筋というか、別指標持ち込まないと無理なんじゃないかなとは思いつつ、このアプローチで分類される結果にどういう意味があるのかという解釈を考える(自動解釈する)のは楽しそう。うまく記号化できないという点で、ある意味人間の脳内でやってるような処理に近い側面もあるのかなー、的な。

情報処理学会 第74回全国大会 3日目レポート

木曜日, 3月 8th, 2012

あつた蓬莱軒安定して美味しいよね(参考)。

ということで、情報処理学会 第74回全国大会 3日目の参加記録です。

全日程を通してのサマリは後で別記事として書く予定。

最終日である3日目は、
 ・(堀川くんが発表するので)一般セッション[5C会場] 自然言語処理
 ・学生セッション[6T会場] 検索・分類
に参加してきました。以下、その参加メモになります。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
一般セッション[5C会場] 自然言語処理

学生セッション[6T会場] 検索・分類


一般セッション[5C会場](3月8日(木) 9:30〜12:00) 自然言語処理 座長 佐藤 理史(名大)


5C-1文字列間の前処理付きオフライン全文検索エンジン類似度距離 ○佐藤 哲(楽天)

消費者:出品者:広告代理での文字列検索
 編集距離、コサイン距離、Jaro-Winkler距離、q-gram距離
記号列間の表記的な類似性だけではなく、意味を考慮した類似性の測定
 WordNet距離、圧縮距離、説明文距離、Google距離、正規化Lucene距離(NLD)
記憶容量コスト、計算コストが高い
 前処理:日本語問題の解決、情報量圧縮など
  情報圧縮:出現ページ数(ページ内出現回数はカウントしない)
  NokogiriでWikipedia XMLからコンテンツ抽出
  Luceneで検索インデックス作成
  LuceneとIgo-AnalyzerでWikipediaコンテンツ検索し、NLD算出
 メイン処理:高速に文字列間の意味的な類似度距離測定:NLD

naltoma: 類似度算出の情報源をWikipediaとすることによるバイアスがかからないか?
A: Google辞書使うとバイアスはかなり削減される。オフラインに拘ったのは商品に特化した距離を作りたいから。

Q: 前処理で高速化することで前回の結果と異なるのは何故か?
A: LuceneがデフォルトでTFIDFスコアリングをしているらしい。今回の高速化ではページあたりの語数を0,1にしているため、カウント数が減るとTFIDFが異なる。
Q: タイトルが「類似度距離」になっているが、類似度と距離は相反するようなものに感じる。Similarity Measure。


5C-2映画鑑賞の道案内システム ○塩崎浩二,浦谷則好(東京工芸大)

従来:売れ筋/ジャンル/制作年代ベースで推薦される
あらすじマッチングによる推薦
 連想検索エンジンGETAによるマッチング

naltoma: いわゆるコンテンツベース推薦?
naltoma: 「映画あらすじ」固有の特性はあるのか?(シリーズ枠がその一つだと思うが、他には?)
naltoma: 検証実験では関連性が平均値2.59と比較的低いように見えるが、素性として採用した単語を「自立語」に絞り込んだのが問題なのか、特徴量に問題があるのか?
naltoma: そもそも「関連性」とは?

Q: 興味があるものは「映画の内容が似ている」という前提があるようだが、実際には内容が似ているかどうかとは関係ないのでは。監督が同じでも内容が違うとか。ジャンルの類似とかなら分かるが。
A: 推薦映画として相応しい推薦ができたかという指標だが、何を元にして探すかということで手掛かりの一つとして「ある一本の映画を知っている」から出発して似ている映画を探す、連想検索するということを想定した。
Q: 連想していくとのことだが、何故一つの映画に絞って入力させるのか。複数入れることは考慮しない?
A: 見たい映画のイメージが「アクション映画で/アメリカで」のようになると既存の検索システムで検索できる。自分で、特にイメージがない「何か面白いものがないかな」という状況を想定。
Q: それでも一つに絞る必要性はないように思う。

Q: こういうシステムって正解がないので評価は難しいと思うが、設計する時にどういうのが出たらワークしたと評価するのかに依存すると思う。設計指針をどうするのか。どのぐらい「関連があるのか」もそうで、このあらすじで十分連想できるようなテキストになっているのかどうかも出せれば良いかもしれない。レビューが似ているから興味を持てるとは限らない。その辺りの哲学を持って設計するべき。


5C-3Twitterからの談話自動抽出 ○堀川敦弘(琉球大)

Q: 形態素解析で単語分割してるが、Twitterだと辞書に無い語がどんどんでてくるので、辞書チューニングでも限界がありそう。どうしてN-gramを利用しないのか。
A: N-gramでの共起でも良いと考えているが、N-gramで試したことが無い。どんどん増えていく語に対する対応はGoogle Suggest APIで対応できるのではないかなと考えている。
Q: 大前提の共起を用いるという事に対して問題を感じる。長い文章だと有力だと思うが、Twitterのように短文だとあまり役に立ってないのではないか、今回の結果は偶然じゃないか。
A: 取ってきたい談話が長くなってしまった場合、共起が発生せずに取りのがしてしまうなどのことが頻繁に起こるかもしれない。同時に母集団の中で会話をされると難しい。
Q: Seed Tweet Setってどのように作った?
A: 抽出したい談話に関するツイートを人手で選択する。
Q: 談話抽出というとAさんとBさんの議論を抽出したいと思う。全く関係ないCDさんのも一緒くたになってしまって一緒に議論しているように抽出されてしまうのでは?
A: その可能性は高い。それを緩和するというわけではないが、ツイートを見た人を母集団として加えていくことで緩和できると思う。
Q: ホットエントリ、バスッターのような言葉に議論する事がありそうdが、どのように分離する?
A: 皆が同時に「バルス」といったときどう分離するかという状況だと思うが、具体的な手法はイメイージできていない。
Q: 140ツイートをどう集めたか?
A: 談話の開始と終わりは検知していないため、人手で与えている。リスト内全ユーザの時間内全ツイート。
Q: 全ユーザに適用するのは難しい?
A: そこは考慮していない。

(良い意味で予想通りの指摘/コメントを貰えてたので、外部からの刺激や交流になったという点でとても良かったんじゃないかと)

堀川くん自身による振り返りレポート: IPSJ74発表に対するコメントなどの考察


5C-4著者推定による文章の特徴解析 ○國廣直樹,長谷川智史,穴田 一(東京都市大)

文献の心眼問題:シェークスピア別人説
文章には人それぞれ特徴がある:過去は主に筆跡
 電子化に伴う新たな特徴量の明確化
先行研究:2-gram, Tankerd距離
今回:品詞n-gram出現確率、単語長n-gram出現確率

Q: 単語長n-gramを使ってるが、著者は文字の長さではなく読んだ時のリズムで書いてるように思う。単語文字数ではなく読み数、モーラ数使うとどうか。
A: 読み文字数についてはこれからやろうと考えているところ。
Q: 学習テキストと知りたいテキストの長さが結構効いてくるということが分かっている。今回のはどのぐらいの長さのテキストか。
A: 短いもので3千字、長いもので3万程度だったと思う。青空文庫。短編小説が多いはず。
Q: 30人エッセイのコーパスで、3万字。1万を学習にあてるとだいたい間違いなくあてられた。言語モデルを使ったもの。去年/一昨年のNLPで発表したので参考まで。


5C-5係り受け構造アライメントを用いた文間の差異箇所認識 ○小林幹門,篠崎政久,加納敏行(東芝ソリューション)

開発ドキュメントなど、文書間の不整合箇所を確認する作業に膨大な時間と人的コストが大きい
 修正起こる度に不整合発見タスクが発生
  類似した内容が記載される文章間に不整合が含まれやすい->自動検出 [小林2011]
  差異が生じる箇所を目視で確認するコストが高い -> 差異検出
語幹と係り受け構造から共通部分検出
アライメントが行われなかった箇所(差異箇所)検出
補足文生成

naltoma: 翻訳の例で「単語の使い方」を例文表示するようなシステムがあるかと思うが、そういうタスクと類似問題として設定した?

Q: 「関し、」と「関する」では大きく異なるから検出しなくてはならない例では?
A: そうだが、見る人が「どれだけ影響を与えるか」を考えてのこと。
Q: 法律に関するものなので、検出すべき。

Q: 差異箇所をどう定義しているか。法律文について研究しているが、普通に読んでても気づかないものもある。
A: 差異箇所の定義としては、二つ文を比較した時に漏れがあるもの+同義語や相違。法律というドメイン固有については今は考慮せず一般文書としての扱い。特有言い回しについては専用辞書構築などで対応したい。

Q: 確認だが、今回のシステムは「非常に似ている2つの文を入力してもらう」ことが前提?
A: その通り。


5C-6SVMによる学習とタイプ分類パターンの組み合わせによる固有表現抽出手法 ○尾田俊弘,福本淳一(立命館大)

[Sekine 2004] 150種類の固有表現タイプが定義
固有表現特徴をSVM学習+固有表現範囲同定
素性
 全ての単語を対象
 品詞、文字種、単語自身
 2つ前〜3つ後の計5単語を1セット
パラメータ
 2次の多項式関数(組み合わせで学習)

Q: 人名と地名の関係で、空港に人名がつくケースとかあるが問題にならなかったか?
A: 述語に相当する動詞を見ることで判断できる。会社名だとソーシャルなものがあったが、文脈から判断が可能と考えている。
Q: 文脈を見ないと判断できないものがあるというのものは分かっているが、それがどのぐらいあるか?数パーセントなのか結構あるのか?
A: 具体的な数値は分からないが、詳細タイプ分類ができる例という点では多く見られた。
Q: 固有表現抽出は山のようにあるが、現時点でどのぐらいできてるのか誰も示していない。トップレベルの数値なのか、今までのトップには勝てていないのか。
A: 9割を示しているものもあるので負けている部分があると思うが、今回は詳細タイプ分類をしている点でメリットがある。
Q: 150種類分類する研究自体が無かった?
A: その通り。


学生セッション[6T会場](3月8日(木) 14:30〜16:30) 検索・分類 座長 秋葉 友良(豊橋技科大)


6T-1ツィッターのデマ率の推定 ○Rattanaxay Keothammavong,青野雅樹,相田 慎(豊橋技科大)

目的:デマの拡散防止
 デマ:関連した曖昧な情報が連鎖的に広まること
デマ判断のための素性定義
 地名/人名/組織/URL/Hashtag/@/固有名詞/代名詞/一般名詞
 曖昧な言葉(きっと/かな/どこか。。。)
 単語感情極性対応表
寄与していた素性(Gini係数)
 感情スコア>RT>その他

naltoma: デマ率を推定する対象の定義は?(特定ツイート?)
naltoma: デマの例1で「浸水」という元ツイートはデマ?
naltoma: 推定結果の誤りが「システム自体の信頼性」に直結するので誤推定を避けたいように思うが、デマである/ではない双方の根拠を提示することでユーザが判断しやすくするなど、工夫できそうなことはないだろうか?

Q: リアルタイムでのデマ率を推定したいと書かれているが、どういう手法を考えているのか。
A: 現時点ではデータセット構築が手動。類似計算コストも考慮する必要がある。
Q: 現在の計算コストはどのぐらい?
A: 5分程度。
Q: 学習データ/テストデータは同じ時期のもの? リアルタイムでやると新しい時期のものを判定することになると思うが、どうか。
A: 現在は同時期でテスト。時系列全体を計算するコスト高すぎるので、リアルタイムでやる場合は時間軸を指定するなどを考えている。


6T-2単語共起を用いたベイジアンフィルタによる中国語文章フィルタリングについて ○鄧 德粤,吉村卓也,伊藤孝行,藤井雄太郎(名工大)

有害文書の自動判別によるコスト削減

naltoma: 有害な文書にもいろんなパターン・種類があると思うが、単一のフィルタリングが可能だろうか?(有害文書の定義は?)
naltoma: 負例データセットが判定しやすいものになっていないか?

Q: 閾値を設定する所について。8千件というのは?
A: データセット1万件から8千件選んで閾値を設定し、残り2千件で評価した。
Q: 閾値はどうやって設定?
A: F値が高くなる値で調整。
Q: 共起を使うことで、計算効率やメモリ使用量についての負荷具合は?
A: 2単語共起で10GBメモリ。サーバで使う分には問題無い程度。
Q: データベースの量が大きくなると圧縮とか必要になりそうか?
A: 実用はまだやってない。
Q: 中国語形態素解析エンジンの精度は?
A: 90%台。
Q: 今回の実験結果は、最終的にはWebデータに使いたい? Webだともっと雑多なデータになっていると思うが。ニュース以外も利用することでより現実的なところで評価すると良いのでは。


6T-3複雑ネットワークからのキーワード抽出 ○三澤英樹,大沢英一(はこだて未来大)

単一文書で自己完備なキーワード抽出
 TFIDF:コーパスの分野が異なる、コーパスが存在しない場合に問題
 コーパスを使用しないキーワード抽出:small world構造に基づく文書からのキーワード抽出
  仮想距離:ネットワーク全体の最大経路長として導入
  共起指標の閾値による構造的特徴の調査

naltoma: 自己完備とは?
naltoma: 論文へ付与することを想定したキーワード抽出のようだが、適切なキーワードとは論文単体で決定されるものだろうか?(付与したいキーワードとはどのようなものか?)
naltoma: キーワードとリファレンスは無関係?

Q: 日本語論文に応用する予定があるか?
A: 今回英語を使用した理由は、日本語の形態素解析で行うとまだまだ難しいという判断。形態素解析精度次第では使えると思う。ネットワーク構成が変わるとは思う。
Q: Jaccard係数を用いた実験のようだが、レアな出現が強すぎる評価となることがあるという報告もある。どうか。
A: ネットワーク校正する時点で規定回数以上のノードに抑えているため、非常に小さな頻度な出現は抑えられていると思う。
Q: 共起指標を調整した時にクラスタ係数が若干増大する箇所が見られたとのことだが、どこで見られた?


6T-4Q&Aサイトにおける情報検索型質問の自動抽出 ○田中友二(芝浦工大),望月崇由,八木貴史(NTTレゾナント),徳永幸生(芝浦工大),杉山 精(東京工芸大)

QAサイト質問タイプ:情報検索型/社会調査型/非質問型
 情報検索型質問の自動抽出

naltoma: 「検索結果に欲しい情報が見つからない」の質問タイプは「情報検索型」? 回答がWebにあるもの?
naltoma: 質問分類した後でどう活用する?
naltoma: 質問に「活用できる/できない」の差はない?

Q: 質問を対象として分類したようだが、回答を見ても参考にならないか。
A: 質問時に分類することを想定しているので質問しか見ていない。
Q: 実際には回答がついているものを選ぶのに使うわけではない?
A: 現時点では質問回答が揃っているデータセットを使っているが、実際には回答が存在していない状況で分類している。
Q: 他の分野でも実験したいとのことだが、分野毎に教師データを用意する必要がある?
A: 用意することで精度が向上するとは思う。ただし、依存しないような特徴語もあると考えているので、カテゴリに依存しないような教師データを用意することを検討している。


6T-5知的ヘルプシステムのための意味を考慮したテキストマッチング手法の改良と評価 ○柿間俊高,村松幸樹,杉本 徹(芝浦工大)

目的:知的ヘルプシステムの実現
自然言語文の意味理解+テキストの言い換え
 適切なヘルプが出力される精度を高める
単語解析(概念付与)+意味解析(概念絞り込み+深層格付与)

naltoma: ヘルプ内の記述が理解できないと意味が無いので、Web上での参考手続きとのマッチングは取れないか?

Q: 有効性はどう判断する?
A: 本来ならシステム化して被験者通して確認したかったが、今回はMRRでのみ確認した。
Q: MRR評価してるが、精密にすることで精度が上がっても再現率が下がっていないか?
A: まだ再現率はチェックしていない。
Q: ルートが一致するというのが必要になると思うが、そこはだいたい一致する?
A: 現時点では大丈夫だが、ユーザ入力文次第では問題になることもあると思う。


6T-6否定文認識による潜在関係検索の精度向上手法 ○落合伸彦,Duc Nguyen Tuan,Danushka Bollegala,石塚 満(東大)

(キャンセル)


6T-7ストーリー性を考慮した映画あらすじからの類似度計算 ○村手宏輔,黒岩眞吾,堀内靖雄,篠崎隆宏(千葉大)

類似文書検索
 文書内の単語の並びが考慮できていない(スラング、言い回しなどによる意味の差)
 文全体の単語の並びを考慮
  ストーリーの差を定量化したい
文書を時系列データで表現+DPマッチングによる類似度計算
 同じ出来事に関係する単語を近いベクトルとなるように設定したい(例:ジャンル)
 未来:SF映画、殺人:犯罪、ホラー
 単語特徴ベクトルを20次元(ジャンル)で正規化

naltoma: 影響伝播モデルIDMみたいな形で分割できない?
naltoma: ストーリー性とは??(時系列考慮してるけど、ジャンルベクトルの推移でストーリーになる?)
naltoma: 単語特徴ベクトルは固定値で求まるもの?

Q: 単語単位になっているが、文法により異なると思う。どのぐらい単語の順序が影響していると考えているか。
A: 最小単位ということで単語を考えた。文章でも圧縮すると単語程度になるので同程度になると判断している。比較はしていない。
Q: TFIDFと比較しているが、圧縮法も異なっている。要因が二つになっていると思うが、そこを区別して比較できないか。
A: 順序を考慮しないバージョンでの比較も検討しているが、21次元ジャンルだけでは測れなかった。


6T-8共起ネットワークを用いたクラスタ性によるテキスト分類 ○小林雄太,村上裕一,中村真吾,橋本周司(早大)

共起ネットワークを定量的に評価したい
 クラスタ性(クラスタ係数)によりテキストを評価・分類
 ノード=TFIDF上位重要名詞
 リンク=閾値モデル:閾値変更でネットワークが変化
実験
 上位N件の設定次第では「閾値が低い領域」では誤差が大きい
 閾値中盤以降はほぼ類似傾向

naltoma: (妄想)TFIDFを使うことで一種の「経験に依存した重み」というか人間が読み終えた後の感想を抱いたような特徴量になってたりする?

Q: 直接的な閾値、相互情報量とかは使えないのか?
A: ジャッカード係数のようなレア出現単語の影響が強いため、今回は避けた。実際に今回の方法でうまく避けられているかは分からないが、ネットワーク性を測れることを考慮しての選択。
Q: ニュース/小説とか大きく異なる分野などで比較する方が適切にも思う。
A: まず著者によってまとまる要素が違うということを検証してみた。今後そういうジャンルの違いも確認していきたい。

情報処理学会 第74回全国大会 2日目レポート

水曜日, 3月 7th, 2012

正直寒さをなめてて済まんかったと言いたくなる寒さ。風強いと普通に寒いねうん。ごめんなさい。
そして「味噌風味に飽きた」という学生のために適当にぶらついて入ったお店「つくし」が美味過ぎました(参考写真)。名古屋の皆さんが羨ましいです。

ということで、情報処理学会 第74回全国大会 2日目の参加記録です。

あまりにも発表件数多いので事前に面白そうなテーマをチェックしてたり、そのツイートに反応してくれた伊東先生に質問してみたりしながら参加するセッションを検討してました。並列度高いと直接見れない発表が多過ぎるのは残念。。

2日目は、
 ・学生セッション[3R会場] 自然言語処理・応用
 ・学生セッション[4ZJ会場] システム評価
に参加してきました。以下、その参加メモになります。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
学生セッション[3R会場] 自然言語処理・応用

学生セッション[4ZJ会場] システム評価 座長 櫻庭 健年(日立)


自然言語処理・応用 座長 東中 竜一郎(NTT)


3R-1感情判断に基づく物語文章からの感想文自動生成手法 ○町田啓悟(長野高専)

起承転結の4文による一貫性のある感想出力を自動生成したい
従来手法:動詞に着目した手法
 「殴られる」が負の感情に繋がる
意味判断+感情判断の導入。起承転結を個別にNN学習。

naltoma: 要約との違いは?ネタばれ大丈夫?
naltoma: 起承転結で出力することを選んだ理由は?(起承のみ/起のみ生成とか、キャッチコピー生成とかいろいろ手段が考えられそう)

Q: どういう応用を考えている?
A: 電子書籍かされた中から自分の好きな物語を探すため、レビューのようなものがあると便利だと考えた。
Q: レビューがないようなものについても感想生成することでコンテンツアクセスが容易になると感じた?
A: その通り。
Q: 文章から起承転結がどこなのかをどう判断しているのか?
A: 機械的に4分割。
Q: 評価者間の一致度はどのぐらいだった?
A: ほとんど一致していたが、一部異なるものがあった。


3R-2アメリカ合衆国大統領演説の計量テキスト分析 ○青木宣康(東洋大),河村俊太郎(東大),鈴木崇史(東洋大)

就任演説の特徴をカーネル主成分分析+ランダムフォレスト
 テキストの特徴
 テキストへの影響要因

Q: 何を目指している?アメリカの今後の予測分析?解析手法そのものへの興味?
A: 今後のアメリカ大統領選挙演説を見た時に、どういうのが使われているのかが分かれば良いなと考えている。
Q: 特定の定型的なサンプルで検証されてるが、他の国の動向についても同じようなサンプルがあるか?
A: アメリカだと原稿が残っているが、他国だと調べればあるかもしれない。日本首相だと全文残っている。
Q: 戦争前後で使われている単語のバラエティが短くなってコンパクトにという話だったが、ある意味でアホ向けという印象も受けるが、こういうのは他国でもそういう傾向があるのか、戦争前後での違いとか何か一般的な話に広がると面白そう。
Q: カーネル主成分分析でプロットした図はどうやって距離を求めたのか? 距離をテキスト解析して求めていると思うが、類似度をどう求めたのか?
A: 相対頻度から特徴ベクトル生成し、パラメータで調整。


3R-3冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化 ○佐藤裕也,豊田哲也,延原 肇(筑波大)

背景
 ホームページ:観光者視点の情報が不足
 口コミサイト:書き込み人数が少数
 ブログ/マイクロブログ:情報探索困難、地理情報が不明瞭
 ->Twitterから収集統合(観光者視点)

naltoma: 観光地名が直接記入されていない感想ツイートが多々ありそうだが、どう収集する?対象外?
naltoma: ツイートだとブログ以上に「受け狙い」とかバイアスがかかった傾向とか特殊な特性はないか?(それが問題にならないか?)
naltoma: 再クラスタリング分割で「ツイート数の差が細小になる分割を選ぶ」理由は?

Q: Juman,mecab(Wikipedia)使ってるとのことだがmecabだけではダメなのか?
A: Jumanは代表表記が複数出力されており、表記揺れのために使用。
Q: 京都を使った理由と、京都以外の土地についてどういう所で有向かとか考慮すべきことがあるか?
A: ツイート数が多いのと個人的に好きだから京都を選んだ。福島/茨城とかだとツイート数が極端に少ない場所では難しそう。
Q: 広島は個人的に観光客だと思ってるが、他の人はそう感じてないようにも思う。過疎地ではこういうスタイルだと難しそう。
Q: ツイート検索は公式API?ツイッターだと公式RTは区別できるので元ツイートだけ使えば冗長性排除になると思う。
A: 公式APIを利用。非公式や広告除去なんども考えていて、非公式の場合にはツイート自体を排除することが良いかどうかも検討中。


3R-4神話のトピック構造分析による比較研究 ○太田 明,橋本和夫,山田仁史(東北大)

主観的な分析は行われているが、より客観的な根拠のある分析をしたい。
トピックモデル:Multiscale Topic Tomography (MSTT)

naltoma: シーン分割はIDM(影響伝播モデル)の方が良さそう。
naltoma: 「場面の構造」とはシーン1,2,3のようなシリーズ?階層構造?より複雑な構造?

Q: トピックモデルで特徴量という話だが、他の物語についても適用できそうだが、神話に特化する必要のある部分はあるのか?
A: 神話以外の物語/文書にも適用できると思うが、神話を選んだ理由は個人的な興味。
Q: 神話には同じような構造があって、というのが神話特有の話ではないかと。
Q: トピックモデルをそのまま適用するのが難しいという難点があるようだが、既存の神話がどういうデータ構造なのかに依存しそうだが、そこには依存しないのか。関係ない一般的な話なのか。どの部分が神話を研究するという特定な話なのか、一般的な話なのかが良く分からない。
Q: 古事記とか参照してるようだが、第一次資料として何を参照しているかによってアプローチの仕方も変わってきそう。原著や現代語訳とかで解釈が異なりそうだが。
A: 現代語じゃないと認識できないので、仕方なくだが現代語訳を選択。確かに翻訳で失われる情報とかがあるとは思う。翻訳を比較するとかも今後必要になると思う。


3R-5日本語クロスワードパズルのカギの解法 ○内木賢吾,佐藤理史(名大)

カギは特定種類の連想を促すことが多い
 人手で連想タイプ(7つ)を設定
 今回は穴埋め/反対語/同義語/説明の4タイプが対象

naltoma: 資源が不足しているようだが、どうやって増やせるだろうか?
naltoma: クロスを考慮した候補選択はしている?

Q: 先行研究との違いは?
A: 言語資源(Wikipedia利用)と内部モジュール(Unidicで階層的見出し語定義を利用しているので表記揺れに対応)が違う。
Q: 実験結果の比較では、先行研究を包含した形で良くなってるのか、そうじゃないのか。性能自身は上がっているが、先行研究で正解してたものが本手法で失敗しているというようなことはあるか?
A: 未調査。
Q: 複数鍵が重なった依存関係がありそうだが、そこについて検討しているものはあるか?
A: Proverbをそのまま使うことで利用できそう。
Q: クロスワードを解くのは何故?
A: 面白そうだからでもあるが、人間がどのようなものからどういう連想するのか、どういう資源を使うのか、というモデル化に興味がある。


3R-6比喩的素描を用いた類似語推論およびその視覚化インタフェースの構築 ○長谷川恭佑,桝井文人,後藤文太朗(北見工大)

比喩的素描(デスクリプタ)で検索支援。MURASAKI。
逆引きリストから類似語推論し、結果を視覚化

naltoma: 検索目的毎に適切なデスクリプタが異なりそうだが、目的はどのように推定する?
naltoma: 逆引きリストで得られる類似語は「どのような観点での類似語」なのか?

Q: 初音ミクから「ボーカロイド」デスクリプタを介して他の類似語を求めているが、デスクリプタ自体の類似性を求める必要はないか?ボーカロイド以外の歌わせてやるシステムとか。
A: 未検討だが、初音ミクだとボーカロイド以外にも複数デスクリプタが出てくるので、そこで担保できるかもしれない。
Q: MURASAKIのログデータを計算するコストはどのぐらい?
A: 現在はリアルタイムで一部データを使って逆引きリスト作成だけでも結構時間かかるので、予め処理しておく。
Q: Google Setsのような類似語を出すシステムがいくつかあるようなので、参考まで。


3R-7ローマ字入力による縦書きモンゴル語入力方式の実装 ○巴図孟克,中平勝子,三上喜貴(長岡技科大)

Q: 提案方式の評価についてモンゴル語を母語とする人に対して、Microsoft入力方式を普段から使っている人だと思うが、提案手法にどれぐらい辞書登録されていて、何割ぐらいヒット率があったのかによって評価が変わりそうだが、ヒット率はどのぐらいだったのか。
A: Microsoft入力を使ってたのは二人だけ。
Q: 辞書から単語を拾ってくるという入力方式なので効率良くなっているのだと思うが、辞書の単語数を減らした際のヒット率を検証できると良さそう。


3R-8カタカナ抜け文のための自動解法アルゴリズムの提案 ○島 広幸(工学院大),建石由佳(ナラプロ・テクノロジーズ),小西克己(工学院大)

文脈を理解させ、推測や連想を行わせたい。
カタカナ抜け文パズル
 Web日本語Nグラム

naltoma: 文脈理解というよりは、前後の単語と共起しやすい単語の連想という問題?
naltoma: 何に応用できる?何をモデル化したことになる?(カタカナ制限やマッチング制限があるために逆に面白みの欠けたモデルになってない?)

Q: 最短経路問題で解くようだが、経路はどうなる?
A: パスは各候補単語を個体として、同じ番号を持っている単語が隣接したグラフを生成。
Q: 連想はどこにある?どういうところで連想しないと解けない?
A: 例えばある場所に当てはまる単語を考える際に、その前後の単語から連想する。それをNグラム+共起で実現した。


3R-9マイクロブログ上の中心的話題とそれに対するユーザの反応の抽出 ○藤川智英,鍜治伸裕,吉永直樹,喜連川優(東大)

「話題を知ること」自体の需要。
話題に対するユーザ意見分析:ex.)信じているか疑っているかで分類
 話題語抽出・スコア計算(話題語出現頻度をバーストスコア)
  話題語と偶然を見分ける必要性:共起バースト語が多い場合は本物の話題語である可能性が高い
  PageRankを用いたスコア調整
未知語に伴う形態素解析ミスをグラフ化でフレーズ・話題を表す文として抽出することで対応

naltoma: 「話題」とはどのぐらいの規模を想定しているのか。対象としている母集団とのサイズ依存?(調整が必要?)

Q: バーストでどういう母集団に対してやってるのか、逆に出て来なかったものについてものとか。
A: 条件で絞り込みしている。
Q: 母集団は?
A: 日本語ツイート全体
Q: 関連ツイート収集とあるが、RTは意識している?
A: 公式RTは排除。
Q: どのぐらいRTが含まれているかは調査した?
A: 未調査
Q: EMNP2004の単語ランク(?)があるので参考まで。
Q: 日本国内で一番バーストした単語は「パルス」だと思うが、それはどういう表示されたのか?
A: バースト単語をランクオーダで並べているだけなので、とくに出力に変化はない。


学生セッション[4ZJ会場] システム評価 座長 櫻庭 健年(日立)


4ZJ-1チェックポインティングによる評価条件が可変な高速シミュレーション手法の提案 ○椎名敦之,大津金光,横田隆史,馬場敬信(宇都宮大)

新規アーキテクチャの特性を見るための繰り返しシミュレーションを高速化したい
 チェックポイント&リスタート(ダンプ?)で高速化
 DMTCP

naltoma: アプリケーション/ベンチマークを与えると自動でチェックポイント&リスタートできるように動作を変更できる?自前でプログラミングするだけ?
naltoma: CPUレベルのダンプデータだととても巨大なサイズになりそうだが、問題にならないか?

Q: チェックポイントの場所ずらしてとか難しかったと思うが、いろいろ手法が考えられたと思うが何か比較検討されたことがあれば。例えば、例題のスレッド1,2,3を繰り返すものを1,2,3,4,4と変更するものを最初から入れといてコンパイルするものや、ある条件でコール先を変えるようにしておけば倍なりコード空けておくとか必要もないだろう。
A: 作ってあるプログラムがいっぱいあって、それを使いたいから。
A: 予めコンパイルしておくというのもあるが、最適化手法を新たに開発した時に、そのコードがどういう性能になるかを評価したい。未知のものは予め作っておくことはできないので、領域を空けて置く必要がある。
Q: チェックポイントのオーバーヘッド次第では最初からやり直す方が早いこともあり得るが、どのぐらいオーバーヘッドがかかるか。もしくはどれぐらいでチェックポイントした方が良いのか。
A: 検討中だが、現時点では長時間かかるシミュレーションを想定している。


4ZJ-2準天頂衛星を用いた防災情報配信システムの設計と有効性検証に関する研究 ○原田貴史,石田剛朗,楠田哲也,神武直彦(慶大)

避難のタイミング:生き延びた人でも1/4が友人らの声かけ後に避難
災害発生時に使用可能な情報配信システム
 技術的な制約を把握したい
  片方向、伝送速度が極めて低い(約6秒に1回250bit)

naltoma: オペレーション含めてどういうシステムとして設計を考えている?

Q: 防災システムとしては非常時だけ使えるというのは経験的に役に立たない。日常的に使えるツールとしても使ってて、防災時にも使えるように設計されてないと使えない。エリアメールを使ったことあるが、通話中/アプリ使用中には割り込まないので使えない。仕様変更されてるかもしれないが。
A: 検討する必要があると思います。
Q: 受信機はちょっとした改造で使えるということだが、バッテリー消費は?
A: バッテリーが良くならないと現実的にはそれほど長くは使えない。消費電力についても今後評価していきたい。
Q: 将来の話ということでデータが増えた場合、どれくらい送りたいというケースを想定しているのか。
A: 今は緊急地震速報程度だが、本当は避難経路とかを位置情報でフィルタリングをかける形で送ることも検討している。


4ZJ-3ドライビングシミュレータを用いたジレンマゾーンにおけるドライバーの視線データの計測とその評価 ○平野優輝,千田一誠,杉野栄二,瀬川典久,澤本 潤(岩手県大)

交通事故防止に対するドライバーの視線方向計測の有効性を確認したい
 ジレンマゾーン:黄色信号時に停止/通貨の判断に迷う領域

naltoma: ジレンマゾーンは車速以外にも車道の幅や歩行者の有無など多くの環境要因から影響を受けそうだが、その影響は無視できる?
naltoma: 視線方向計測で適切な時に警告を受けることは事故防止に役立ちそうだが、逆に警告が邪魔になるなどでメリットはないか?
naltoma: 640×480程度の粒度は実世界との差が大きそうだが、シミュレーション結果に影響しないか?

Q: 目線データは、ドライバ歴によって変わりそうだが、被験者のデータはどのように収集した?
A: 今回は経歴を考慮していない。運転歴1〜2年程度の人が多いがばらついている。
Q: 何らかの知見が得られたとして、それをどう活かそうと考えている?
A: ドライバの注意の変化が分かったが、これに限らず事故が発生する状況を作り、その原因解明。車への新機能の提案などにも繋がれば。


4ZJ-4日本語のやさしさの自動推定のための特徴量に関する基礎的検討 ○張  萌,伊藤彰則(東北大),佐藤和之(弘前大)

日本に住む外国人増加:日本語から正しい情報を理解できない場合も多い
 「やさしい日本語」研究会
先行研究:日本人の感覚で「やさしさ」を定義されており、外国人がどう感じるかは分からない
 文章の構造を簡単にする:名詞数、文章長さ(文節数)、動詞数
 難しい日本語の単語を使わない:日本語能力検定試験の語彙レベル
 外来語を使わない:外来語は原語と意味や発音が異なるものが多い(外来語数)

naltoma: 文字の読み取りと音声の聞き取りとでの難しさの質が異なるのか。
naltoma: 外国人といっても様々なパターンがあると思うが、どういう状況を想定しているのか。
naltoma: 今回の実験では中国人留学生という同じ環境で整えているが、他国の留学生でも同様の傾向があるのか。
naltoma: 外来語が原語の意味と異なるという例と同様に、今回の被験者中国人にとって「漢字」が外来語と同様の問題は起きていないか?
A: 今回確認した事例では問題になっていない。
naltoma: 「より易しい」というのは分かるが、「ベストな日本語(誤解を生じない文)」が作れないか?
A: 検討してみたい。
naltoma: 意味理解を考えると「AのB」のようなものが難しそうだが、あまり問題にならない?
A: 文節数で長さを評価していることが間接的に評価している。


4ZJ-5小型共焦点顕微鏡の開発 ○平野俊幸,山田貴哉,服部公央亮,田口 亮(名工大),柴田 進(ミュースカイネット),保黒政大(中部大),堀米秀嘉(ホーリーマイン),梅崎太造(名工大)

小型で安価な共焦点レーザ顕微鏡の開発

Q: 精度評価をしていたが、既存製品との差異は?
A: 既存製品だともう一段階低い誤差で計測可能。
Q: 既存の高い製品と比べて小型で安く作れるという主張だが、どういう理由で安いのか?
A: 二次元スキャン(汎用品)を導入したのが一番効果が大きい。既製品ではガルバノスキャナだけで高く、さらにそれを高精度で操作するためのモータ制御等でサイズが大きくなる。
Q: 今回の装置はいくらぐらい?
A: 小型試作機は原価200万ぐらい。量産/小型化を通して原価20万程度を目指している。

情報処理学会 第74回全国大会 1日目レポート

火曜日, 3月 6th, 2012

情報処理学会 第74回全国大会の参加記録です。

年末に行った東京もそうなんだけど、やっぱり本土の「風がほとんどない中での寒さ」は沖縄の風の強さで冷える寒さと比べるとすこぶる快適。雨降ってると寒いかなと思ったんですが、それでも辛い寒さじゃない。真冬だとまた違うんだろうけど、今ぐらいの時期だと薄手コートで十分orやや暑いぐらい。
既にあれこれ食べてます(参考1参考2)が、学会出張=ご当地グルメの方程式を満足するためには当然の行動です。

話を戻すと、今回の大会は名前の通り「情報処理学会」主催の全国大会で、年に一度開催されるお祭り。
「祭り」と表現してるのは「多岐に渡るテーマに関する話題・研究者が集う」からで、どのぐらい幅広いかはプログラムを見れば納得できるかと思います。

大雑把なスケジュールとしては、
 ・午前中の一般セッション
 ・午後に「特別講演or招待講演」+一般セッション
 ・それらと並行して特別イベント
のような流れで進むらしい。

一般セッションは並列して開催されてて、例えば初日は一般セッションがアルファベット1文字では足りず「ZA」「ZB」とか続いてるぐらい多く、30前後のセッションが同時開催されます。会場準備お疲れさまです。

名古屋工業大学のキャンパスは結構広い&建物が多いので迷子になりやすいからか、入り口で出迎えていた「メイちゃん」が(いろんな意味で)人気者でした。

ということで極々一部しか見れていないのですが、初日は
 ・(山内くんが発表するので)一般セッション[1C 会場] 情報検索・情報推薦
 ・学生セッション[2V 会場] 情報抽出・質問応答
に参加してきました。以下、その参加メモになります。
ちなみに、naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
一般セッション[1C 会場](3 月 6 日(火)9:30 ~ 12:00) 情報検索・情報推薦

学生セッション[2V 会場](3 月 6 日(火)15:00 ~ 17:30) 情報抽出・質問応答


一般セッション[1C 会場](3 月 6 日(火)9:30 ~ 12:00) 情報検索・情報推薦 座長 奥 健太(立命館大)


1 協調フィルタリング推薦によって誤推薦されたコンテンツに関する一考察 ○山内一騎(琉球大)

Q: 今回のサンプルデータは1000件ぐらい。データが揃って初めて使えると思うが、過去のデータがない分野、例えば500件とか100件とかでどれぐらい有効性が変わってくるのか。1000件で十分なのか。
Q: ユーザのプロファイルを作るという話だが、従来手法にも色々あるがそれらと比べて有利な点は?
Q: 従来手法でもコンテンツを特徴付けるという話もある。特徴ベクトルは0,1とは限らず0〜1の連続値もある。それとの違いは?
コメント: MovieLensはいくつかバージョンがあって、10Mの方が傾向を掴みやすいと思う。

(今回学会発表初の割には前日夜まで資料作成してて発表練習する暇無かったこともあって、
 やや発表おかしかったところもあったけど、建設的な意見や参考情報教えてもらえたので良かったんじゃないかと。)
-> セッション終了後の記録


2 社会性を組み込んだ情報推薦システムの設計 ○小池克拓,打矢隆弘,内匠 逸(名工大)

身時かな人/気の合う人からの口コミ・評価(=社会性)を組み込んだ情報推薦の話。
協調フィルタリングだと推薦者が不明で推薦の信頼性や説得力に疑問が生じる。
 Friend Filtering機構の導入
  Friendクラスタ以外をフィルタリング

naltoma: 「お菓子」の例だとそもそも買いやすい(敷居が低い)が、それが受け入れやすさに繋がっていないか。
naltoma: 実世界でのクラスタを活用するのは良いが、本番ではそれをどう実装するのか。

Q: 友人からの推薦でどのぐらい精度上がるのかという実験だが、お菓子推薦のようなものだと同じ研究室の中で見ている人の影響が出てきそう。お菓子の味となると研究室内での共通性が無さそうだが、何故それを選んだのか、それで良くなった要因は何故か。
A: 論文推薦のようなものだと研究分野やゼミといった偏ったデータを取る必要がある。お菓子のような普遍的な題材の方が分かりやすい、嗜好を取りやすいから選んだ。所属の影響が出難いのかという点については、大学生に対してやってるので年齢差は出てないが2つの異なる大学での差異が出てるのではないかと思う。
Q: 今の大学の同じ研究室だから上手くいっているという特性もありえるように見える。

C: 信頼性を考慮した推薦については、ソーシャルネットワークを活用した事例「トラストなんとか」とかあるので調べて見ると良い。


3 アルゴリズム切替による情報推薦システム ○山本康平,打矢隆弘,内匠 逸(名工大)

CF推薦で同じようなアイテムばかり推薦されるのが困る。
それを時間帯によってアルゴリズムを切り替えることで解決したいらしい。
 今回はユーザベースCF・アイテムベースCF・スロープワンの3種を切り替え。
 時間帯毎に固定/ランダム/選択学習でアルゴリズムを決定。

naltoma: 時間帯をどう設定するのか?アルゴリズムをどう設定するのか?切り替え自体に意味があるのか?

Q: 適合率と再現率はどうなった?
A: まだ未調査。
Q: 時間帯に拘る理由は?
A: 朝食べたいものとか時間帯に起因した嗜好を汲み取りたい。

C: サイクリックな時間に対する推薦だったらこういう話で良いと思うが、映画のようなものではこういう話は当てはまらない。何をターゲットにした推薦なのかを明確にしておくと良さそう。
C: アルゴリズムを切り替えるというのは良さそうだが、「ある根拠で切り替える」というアイデア自体は既存手法があったと思う。状況に合わせた推薦をすると面白そう。

Q: 多様性の評価で「生起数の多さ」をしているが、アイテムが多くなると良いという評価で良いのか?
A: 推薦という点では多様性が増えたといえる。
Q: 推薦という意味では逆にそれがネックになりそうだが、適切な評価なのか? アイテム数よりは内容の多様性を見る必要が無いか。


4 電子文書中の TrueType グリフ照合とその高速化手法の検討 ○鈴木俊哉(広島大)

動機:どの字が何(どのフォント)で印刷されているのか分からない
フェイス名(MS 明朝とか)で指定可能とされていたが、字形の詳細に拘泥する領域でも十分か?
 ケース1:字形を変えたいが名前は変えたくない(バージョン番号だけ変わる)
 ケース2:コールバックの問題で「JIS規格票字形に無いはずの字形が出てくる」。
  *どこに外字フォントが潜んでいるかわからない
  フォント単位での特定 -> グリフ単位での特定
ラスタイメージで比較
 -> 利用許諾・著作権上実用性無し
True Type 描画命令のハッシュ値比較
 そのままだとラスタライズと比較して30倍遅延->高速化



5 文法構造を付加したテキストに対する情報検索方法の検討 ○鈴木 晋(愛知工大)

簡単な文法構造(ここでは「形式文」と呼ぶ)を人手で付加して検索に利用するという試み
含意関係認識に近い例で、質問応答するタイプっぽい。
Semantic Web、オントロジー、WOLに似てる気もするがそれを手動で作るっぽい。

naltoma: 人手で質問に付与するぐらいなら良さそうだが、説明文へも人手が必要だとコスト高過ぎないか?
A: RDFでの表現には限界があるという立場。
naltoma: (だけど人手でそれを解消してるようにも思えない)

naltoma: 形式マッチングだけでは不十分で、何を問うているかについての解釈も必要では?

naltoma: 単純キーワードマッチングとどのぐらい結果の質が異なる?
A: キーワードマッチングでは主語述語の関係を無視してしまう。
naltoma: (その例に限って言えば係り受け解析まで加味したら良さそう)


6 類似文字列検索における LCP 配列を用いた索引の提案 ○木村光樹(東大),高須淳宏,安達 淳(国立情報学研)

可変長N-gram
 VGRAMはパラメータ変更する度に木構造を作り直す必要がある
 -> 木構造じゃなくて配列利用。要件:時間削減&パラメータ変更に頑健。

Q: 表記揺れにもいろんなパターンがありそうだが、今回の対象ではスペルミス(字面の並び)のみ?
A: その通り。

Q: 今後の課題で日本語のように文字種が多いものについて評価したいとのことだが、その前に「アルファベットでも単語が長くなるドイツ語とか」で評価するのが手っ取り早そうだが、何か予想できることはあるか。
A: 今回は検索速度は比較してないが、スペイン語で実験した例と比較するとあまり英語と変わった特有の話はそんなになかった。辞書化した場合にはあまり差が無い。逆にDNAのような文字種が少ない場合では文字列が長くなってしまうため、そういうケースでどうなるかは今後検証してみたい。


7 Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents ○ Yimin Chu(東大),高須淳宏,安達 淳(国立情報学研)

PDFでの論理構造抽出が目的。
 コンテンツ抽出->グルーピング->論理構造抽出
 キャラクタ、フォント、線、ブロックなど。
従来法:フォントサイズ、ラインスペースに基づいてグルーピング。
 今回はアライメントとインデントを導入。

naltoma: 論理構造の延長戦にストーリー展開とか意味構造があるのかな。

Q: 先行研究とターゲットの違いがある?(アカデミックペーパーかコンシューマ雑誌か)
A: アカデミックペーパーは一例。データセットに含まれている。
C: 自分が考えてるパラグラフ抽出が有利と考えるのは良いが、ユーザはそこに嬉しさを感じるのか。パラグラフが重要なのかそうでもないのか。


学生セッション[2V 会場](3 月 6 日(火)15:00 ~ 17:30) 情報抽出・質問応答 座長 佐々木 裕(豊田工業大)


1 自然言語テキストにおける注視関数を用いた注視語抽出方式の提案 ○齋木貴博,鈴木 寿(中大)

深層格の自動抽出に繋げるための話らしい。
(遅れて聞けず)


2 ソーシャルネットワークを情報源としたコミュニティ辞書自動生成の 研究 ○宮本和幸,菱山玲子(早大)

専門用語(特定コミュニティで使用される用語)を自動生成したい。
 機械翻訳での誤訳を防ぐ

naltoma: 「Twitterがコミュニティ性の高い語彙が現れやすい」という仮定は良いとして、それをどう構築する?コミュニティとは?
naltoma: 未知語と一緒だが、ツイートされない専門用語は?(漏れはどのぐらいある?)

Q: コミュニティの語彙を収集するという意味ではブログの方が詳しい気もするが、Twitterでは崩れ過ぎているということはないか。
A: 今回はブログは対象として考えていなかった。Twitterは正しい日本語じゃない、崩れているものも確かにあった。


3 WEB 上の相談事例とトラブルデータベースを利用した重要事案発見のための要因解析 ○八十岡智章,岡田将吾,新田克己(東工大),高橋久尚(統計数理研),本村陽一(産総研),田中智貴(国民生活センター)

早期警戒指標となる重要な事例・事案を自動発見したい。
類義語辞書:アラジンの負担・トラブル表現リスト(例:風邪->病)

naltoma: 分類精度というよりも発見見逃しがないか、再現率が高いかが重要では?
naltoma: どんな事例で失敗している?

Q: パラメータ調整の自動化について考えていることはないか?
A: 現在は手動調整。自動化は検討中。
Q: 自動化ができそうか? 手動でやらざるを得ない問題設定なのか?
A: 動的に変化するものなのである一定期間毎に更新する必要があると思う。


4 検索サイトを用いた自由記述式アンケートの特徴語抽出法 ○星野詞文,吉村宏樹,岡 誠,森 博彦(東京都市大)

検索ヒット件数から名詞の繋がり具合を判断できないケースへの対処
 文法的視点から「連接係数」を導入

naltoma: 企業アンケート特有の話がある?


5 カテゴリ階層を考慮した固有表現抽出 ○東山翔平,関 和広,Mathieu Blondel,上原邦昭(神戸大)

従来の固有表現抽出では「分類」だが、階層関係が考慮されていない。
 重みwを学習する際に階層関係(ラベル間の損失関数)を導入
 階層間関係における「差」を損失関数として設定
  dca: deepest common ancestor -> 一般用語の方がby座長

naltoma: 適切な損失関数はどのように定義する?
naltoma: 項目毎の損失関数総和で良いのか?

C: 固有表現をテストするデータセットがあるのでそこで比べると比較しやすくなる。


6 中学校レベルの数学の文章題を解くシステム ○箕村大輔(電機大)

形態素解析->ホーン節(原子論理式)変換->常識追加->連立方程式作成->制約プログラミングで解く
ホーン節変換:Syntax Directed Translation Schema(SDTS)
‘支払う(太郎,1050)’: 支払ったなら何かを買ったはず->買うという式を追加。

naltoma: 問題の意図や答えるべき事象はどのように汲み取れるのか?
naltoma: 常識的知識をどのように用意するのか?(どのぐらい必要になりそうか?)
A: どのぐらいの数が必要そうかは未検討。
naltoma: 文章題のタイプはどのようなものがあるか?
A: 有理数の演算で求めるタイプ。例えば図形は考慮していない。

Q: 例えば中1レベルの問題集解かすと何パーセントぐらい解けるのか?
A: 変換規則が不十分なのでまだ何とも言えない。


7 発言内容の関連性を用いた質問答弁の構造化に基づく議事録閲覧支援システム ○小泉元範,新谷虎松,大囿忠親,白松 俊(名工大)

解決したい対象:全体内容把握の困難さ、話題発見困難さ
 議事録の「質疑応答構造」を利用
質疑応答分割->セグメント分割->セグメント間関連度->構造化

naltoma: 質問者、答弁者のデータセットから汎用的な「質問パターン」「答弁パターン」が見えてくるか?
naltoma: 複数の議事録での時系列推移を見れるか?(参照リンク生成?)
naltoma: 事前に議題が明示されてるケースが多い気がするが、比較してどのような差異が見られたか?
A: 要約に相当するような文が冒頭にでてくるが、実際に発言としてでてきた言葉を見出しとして使うことができる。

Q: 質問者が答弁者に対して「はい/いいえ」と言わせるようなやりとりでは類似度があまり出て来ないと思うが、こういうケースではどうなるか?
A: 質問/答弁が長いケースを想定している。
Q: 長短に応じて前後の発言にくっ付けるというような判定も面白そう。


8 複合名詞の構造パターンを考慮したスコアリング手法の改良 ○吉野 徹,福本淳一(立命館大)

QAシステム「*は誰?」
例:完全試合を達成したヤンキースの選手は誰?
 回答候補をスコアリング:キーワード毎にスコア付与
 問題点:複合名詞の形態素が離れて現れた場合、スコアリングを行うのに相応しくないキーワードがある。
「名詞-助詞-名詞 名詞-名詞」の構造パターンについて人手分析
NTCIR-3のQACタスク+Google検索上位10記事
 RRで評価

naltoma: 汎用的なパターンとして抽出できるのか?

Q: 構文解析機を使った事があるか?
A: 精度8割程度と低かったので、自前で作ろうと思った。
Q: パターンというより文の構造で見た方が良いと思う。


9 Twitter からのアルバム自動生成システムのための関連度計算手法について ○糸川翔太,白松 俊,大囿忠親,新谷虎松(名工大)

コメント付きアルバム(複数ユーザ)を自動生成。
 入力:Twitterユーザ名+イベント期間
 「写真ツイートその他ツイート」の類似度算出し、関連ツイートをコメントとして採用
 類似度=投稿時間の近さ+位置の近さ+テキスト類似度+リプライ


10 質問応答システムにおける再検索を用いた回答候補の抽出手法 ○油井宣明,福本淳一(立命館大)

QAシステムの問題点:質問文中に情報が不足している場合回答を一意に決定できない
先行研究:ユーザ対話を用いる。
提案:質問文の曖昧性を解消するために回答を拡張することで絞り込みしやすくする

Q: どのぐらい性能が良くなる?
A: 性能が良くなるというよりは抽出できる回答を増やしたい。
Q: 間違った回答に結びつくこともありそうだが。
A: 間違ったものを省くというよりは、提示すること自体を増やしたい。ユーザが何を求めているかが分からないので、再建策で明らかにすることが目標。
Q: 適合フィードバックのような形で処理するのも一つの手法だと思う。

FIT2011, day3

金曜日, 9月 9th, 2011


FIT2011の最終日が終わりました。

3日目のプログラムはこちら

午前中は一般セッション「数理モデル化と問題解決(2)」で座長として参加。
午後は一般セッション「分類」に参加してきました。

全日程に参加しての印象は、イベント企画の面白さと、一般セッション間での差の大きさ。座長や参加者の頑張り具合で何とかなるケースもありますが、アブストand/or予稿で多少は落とすことを考えても良いんじゃないかな。それなりの落とす理由を付して返却するコストは増えるけど、残念な発表もあるし。発表練習みたいな場所があっても良いと思うけど、それがFITでサポートする部分なのかはちがうんじゃないかな(個人的な考え)。

ちなみに、FITの創設経緯によると「従来の大会の形式にとらわれずに、新しい発表形式を導入し、タイムリーな情報発信、議論・討論の活性化、他領域研究者との交流等の実現」ということで特定領域に拘らず幅広いセッションがあるのは良いのですが、交流という観点では質疑応答と懇親会ぐらい?

勿論自分から動けば良いだけの話なんですが、「多種多様なデータが必然的にクロスするドメインがこれから解決すべき領域」というような話が講演会で出るぐらいなので、もう少し積極的にクロスする(せざるを得ない)ような仕組みがあっても良いんじゃないかなと思います。一部の学会では「学会開催中の盛り上げ方」自体を研究テーマにして実際に試行運用してるケース(下記例参照)もあることだし、情報処理学会でその方向に動けないのはちょっと残念。実施コスト高いので手を挙げる人がいないとやれないというのは分かりますけどね。

 ・例1: WISS2010改革内容のまとめ
 ・例2: 人工知能学会全国大会、インタラクティブセッション特別企画、メンタリングセッション内企画
 ・例3: 自然言語処理学会年次大会、自然言語処理における企業と大学と学生の関係

ということで、以下、参加してきたセッションのまとめです。
青字は質疑応答時のやりとりですが、ニュアンス自体が大分違ってる可能性が高いです。


目次
・一般セッション: 数理モデル化と問題解決(2)
・一般セッション: 分類


数理モデル化と問題解決(2)

座長として参加してたので実際の質疑応答をまとめる時間は殆ど取れず、大まかな発表のメモと事前に予稿を読んで私が感じた点のメモや疑問点になります。いくつかの発表を除いて活発な質疑があったので殆ど質問できなかったけど、量子ビット表現したGAの方はセッション終了後に話を伺うことができました。

問題意識:モンテカルロ碁に対し枝刈りによる計算量削減

 Q: 他手法との比較は?
 Q: ポテンシャルモデルと他物理モデルとの違いは?
 Q: ポテンシャル値の与え方は同一で問題ない?
 Q: 枝刈りにより棋力が上がるのは何故か?
  →誤った手を打つ可能性を除外できた可能性
 Q: 9x9の小さな盤面での評価を行っているが、
  これは19x19でも同様の傾向を示すのか?
  →今後の課題

<事前疑問点>
Q. モンテカルロ碁の計算量削減について他の枝狩り方法等があるようだが、
 それらとの比較考察はしたのか。

Q. モンテカルロ碁の特性そのものを解析したり、近似することが目的?
 (近似が目的なら、どのぐらい計算量落とせた上でどのぐらい近似したか
 を示す際に勝率(棋力)だけでは不十分に思うが、他に特性がうまく近似
 出来ているかを検証する方法は無いだろうか) それとも近似した上でより
 強いモデルの構築等に繋げることが目的?(今後の方向性は?)

Q. 特性の近似具合を図る指標として一致率や含有率を採用しているが、
 これらの指標では「実際には採用しない」部分が多く含まれるが問題無いのか。
 言い換えると、ノーマルのモンテカルロ碁により得られる勝率分布全体を
 近似することが目的なのか、勝率分布を利用して手を選択する部分を
 近似したいのか、どちらなのか。
 例えば、勝率分布としての近似を見る場合、両者とも「合法手」を基準にした
 指標になっているが、その逆は考慮する必要が無いのか。すなわち、
 モンテカルロ碁により合法ではないと判断した所の一致率は見る必要が無いか。

Q. モンテカルロ碁との一致率や含有率の観点からは、その性質上基本的には
 ランダムが最も良く近似できそうに思える。棋力も考慮すると序盤をランダム、
 中盤は後半から別フィルタとの組み合わせが直感的には良さそうだが
 検証してみたか。

Q. 各フィルタの特性や棋力は、ポテンシャルの与え方の性質上、
 碁盤のサイズによっても変化がありそうだが問題にならないか。

  • 配属人数下限付き研究室配属問題
  • 問題意識:多対一マッチングにおいて下限導入
     下限導入でも動くようにアルゴリズム拡張
     例:研修医配属問題、タスク割り当て、震災地ボランティア
    選好を考慮する→Multi-Stage導入
    
    
    Q: 下限制約が求められる問題例にといて、完全で厳密な選好を持つという
     前提は問題にならないか?半順序に拡張することは可能か?
    Q: 戦略的操作不可能(偽の選好を表明しても特にならない)+全順序選好リスト
     必須という前提は本当に望まれているのか?
     →選好仮定の緩和、不完全や同順を許した選好
    
    <事前疑問点>
    Q. 定義1の条件2の意図が良く分からない。
     学生iは「|M(lj)|<qj」の時点で学生i'とは無関係にljに配属すべきにも思うが、
     どういう状況を表しているのか。
    
    Q. 学生や研究室の選好リストが全順序であるというのは困難な前提に思えるが、
     問題にならないのか。
    
    Q. 選好リストに駆け引きが含まれている場合、その影響を加味したより簡易な
     解法は考えられないのか。例えば、戦略的操作不能では「自身の真の選好
     リストを申告した際の効用最大化」を意味するようだが、偽の選好リストを
     申告することで効用最大化を図ることは考えられないか。(実際問題として
     そのようなことが行われていないのか)
    
    Q. 似たような質問になるが、ブロッキングペアに含まれた学生は、
     本当にブロッキングペアだったのか。また、ブロッキングペアではないと
     判断された学生は本当にそうだったのか、についての調査結果はあるのか。
    
    Q. 実際の「正当と認められる不満」は、定義1や2で必要十分に記述出来ているのか。
    
    Q. 3タイプのブロッキングペア数を指標として用いた安定マッチングを
     導いていると思われるが、導いたマッチングに関して何らかの批判は
     出ていないのか。
    
    Q. 本質的な話とはズレてしまうかもしれないが、ブロッキングペア数だけを
     最小化することが目的で良いのか。例えば、ブロッキングペア数自体は
     最小だが、ある学生は極端に選好順の低い研究室に配属されているといった、
     学生毎もしくは研究室毎の選好満足度のバラツキが極端に低いマッチングが
     与えられていたとしても問題ないのか。
    
    
    
  • ノード配置問題に対するアント最適化法
  • 問題意識:BMSNの最適ノード配置による伝送効率化
    
    
    Q: 高負荷トラフィックが生じるノードは時々刻々と変化しそうだが、
     その都度最適配置を求める必要があるのか。
    
    Q: アントサーチでアントのいる行と列全ノードを再配置対象にしているが、
     このように設定した理由は何故か。
    
    Q: イータによる問題領域固有情報の効果が高そうに思うが、
     ACO以外の他の手法でも同様の設計を導入することで改善できたりしないか。
    
    Q: IKLSより平均的にすぐれているとのことだが、最悪時等での差はどうだったか。
    
    <事前疑問点>
    Q. アントサーチの際に、未割り当てノード集合N^kが、同じ行と列方向
     全てのノードとなっているが、この設定はどのようにして決められるのか。
     ノード距離でいうなら同距離に位置する斜め方向も必要だと思うが、
     特に考慮する必要はないのか。ネットワークのサイズに依存してどこまで
     考慮するのか(全ての行や全ての列で問題無いのか)も調整が必要に思う。
    
    Q. アントサーチと切り離して考えるのは困難かもしれないが、問題領域固有情報の
     与え方自体の効果が高いように思える。同様の与え方を他の解法に組み込むこと
     はできないのか。言い換えると、ACOが解法としてすぐれているのではなく、
     制約の与え方がすぐれている可能性はないか。
    
    Q. 高負荷トラヒック間のホップ数が1であることが最良のノード配置とのことだが、
     トラフィックには入力と出力があり、それらの対のホップ数が1であることが
     最良ではないのか。また低負荷トラフィックは無視して問題無いのか。
    
    Q. 実用上の制約は全て含まれているのか。計算リソース上の制約や、時間の制約等。
    
    
  • 移動体の通過順序付けにおける最適化手法の比較評価
  • 問題意識:船のような複数移動体が同一領域共有通過
    
    
    Q: 入域点、出域点を増やしても適応可能か。
     →今後の課題
    Q: 入域点のある問題設定が良く分からないが、何のためにあるのか? 具体的な例は?
    Q: 買い物のレジと違う点は?
     →移動体間隔制限が違うと思うが、未調査
    Q: 全体遅延を最小化することで個別のユーザに必要以上の遅延を強いることに
     なると思うが、そこについて何かしら下限なりを設けることはできるか。
     →調整可能
    Q: 「公平性の損失」で順序しか考慮されていない(時間が加味されていない)が
     問題無いか。
    Q: 移動体の種類が3種以上に増えても問題無いか。
    
    <事前疑問点>
    Q. タブーサーチのようだが、タブーはどこでどのように設定している?
    
    Q. そもそも求めたいものは何? 問題設定が良く分からない。
     移動体は三種類以上に増えても適応可能?ユーザはどれでも自由に乗れる?
     移動体のコストは?
    
    Q. そもそもGAのような大域的手法が向いていない問題設定に見えるが、
     セービング法等の局所探索手法との比較は?
    
    Q. 今回の手法は移動体が3種以上であっても適応可能か。
    
    
    
  • 整数ナップザック問題を対象としたQuantum-Inspired Evolutionary Algorithmの基礎検討
  • 量子力学的原理+GA
     量子ビット表現、量子重ね合わせ状態を模倣
     問題意識:整数型の遺伝子表現を可能とする表現法
     移住処理→対交換処理に置き換えることでパラメータ数減少
    
    Q: 観測結果は毎回異なる?
     →世代毎に一度ずつ観測
    
    Q: GAと比較してどのていど計算量が増えるのか。
     →ほぼ同等
    
    Q: 収束状況や適応度変遷具合から決定したようだが、
     回転角度は変動させることはできないか?
     →SAのようなやり方も可能だと思うが、
      島GA的な操作が内部に含まれるため殆ど必要ないと考えている。
    
    Q: 実験2の結果で、適応度は最適に近いところまで獲得できた? 局所解に収束?
    
    事前疑問点
    Q. QEAにおける「量子ビット表現」とは? ユニタリ変換とは?
     一般的なGAとの違いはコーディングのみ?
    
    Q. QEAも知らないのでご教示頂けると嬉しいのですが、QEAやQEAPSは
     一般的なGAと比べて計算リソースも少なく、計算時間も短くて済み、
     得られる解の質も高いという傾向があるのだろうか。
    
    Q. GAは、島GA等の並列処理しやすいアルゴリズムだと思うが、
     QEAやQEAPSも同じような並列化は可能か。(観測とかユニタリ変換とか
     分からないので、並列化に不向きな点があれば教えて欲しい)
    
    Q. QEAPSでの探索性能の差が僅差であることについて、
     一般的なGAでいうところの局所解に陥りやすい枠組みになっているという
     ことは考えられないか。図3で示されているのが十分最適解に近い適応度に
     達しているなら、より大規模/複雑な問題でも検証してみるべきではないか。
    
    Q. 一般的なGAと比較して、QEAPSでもまだパラメータ数が多いように感じるが、
     これらのパラメータの中で省略もしくは自動調整するようなことが
     考えられそうなパラメータはあるのか。
    
    
  • ネットワークの隔たり数とエントロピー
  • ミルグラムの実験、6次の隔たり
     閉路が存在する場合の重複を考慮したい
     スモールネットワーク/スケールフリーネットワーク
      閉路の数で情報伝達のしやすさが真逆
    
    中間的ネットワークモデル2種類考察、
    次数分布エントロピーの情報伝達に及ぼす影響⇄閉路の影響
p次一般化クラスタリング係数C(p): ネットワーク内の多角形構造量を表す一指標
    ミルグラム条件Mn: n次の隔たりが成立する条件
     スモールワールドネットワーク:C(p)が大きくなると情報が伝わり難くなる
      閉路が情報伝達を阻害
     スケールフリーネットワーク: Xn,C(p)が増加するとMnが大きくなり、n次の隔たりが満たしやすい=情報が伝わりやすい
      閉路の数の増加が情報伝達を促進
    中間的ネットワーク
     スケールフリー(sk)→スモールワールド(sm)
      (sm)張り替え率Pの増加と共に、局所クラスタリング係数Cと最短平均パス長(≒Mn)が増加=伝達し難い
      Pの増加=ランダムネットワークに近づける?
     スモールワールド(sm)→スケールフリー(sk)
      (sm)
     →閉路数ではなく次数分布エントロピーが情報伝達に影響
    
    
    Q: ミルグラムの実験で閉路の影響で遠回りするという話があったように思うが、
     閉路はカウントしていないのでは?
    
    Q: 中間的ネットワークの作成方法が影響していないか。
     →傾向確認済みで問題無い
    
    Q: ミルグラム条件Mnと最短平均パス長Lに良い相関が見られるということを
     利用しているが、ネットワークの作成方法は影響しないのか。(中間的ネット
     ワークにもいろいろ考えられ、今回想定した中間的ネットワークではこういう
     傾向だったというだけ?)
    
    <事前疑問点>
    Q. XnやC(p) は閉路と等価な、もしくは近似された指標? XnやC(p)は多角形構造
     を用いた指標になっているが、多角形構造を閉路と言い換えているのは
     何か理由があるのか。
    Q. ミルグラム条件Mnと最短平均パス長Lに良い相関が得られていることが
     示されているようだが、先行研究でも中間的ネットワークのような操作を
     行ったネットワークに対しての調査も行われているのか。(言い換えると、
     ネットワーク生成法が与える影響は十分無視できるのか)
    
    Q. スモールワールドにおいて、張り替え率Pを上げることがランダムネットワーク
     に近づけることと解釈しているようだが、その解釈は正しいのか?
     (例えば張り替え操作は、ハブと連結しているノード間に枝を張り、
      代わりにハブから出ている枝を削除するという2つの操作がセットに
      なっているが、この1セットが処理されることにより何らかの偏りが
      生じる事はないのか)
    
    
  • 経済性を考慮した電力自給のための生活スケジュールの提示
  • 仮想スマートグリッド環境、マーケットプライス
    問題意識1:電力コスト高い時に買ってしまう恐れがある
     高コスト→電力使用を避ける
      生活スケジュールの推薦
    問題意識2:スケジュール推薦の上での目的
     電力会社からできるだけ買わないように
     安いマーケットプライスを望む
      スケジュール最適化(次の日の生活スケジュール)
      生活行動毎に時間、期間、分割、並行、代替条件を設定
    
    
    Q: 需要と供給の関係からマーケットプライスの変動が設定されているようだが、
     2つの組み合わせしかなかった。それ以外の状態ではどうなる?
    
    Q: 目的1と2を合算して考慮しない理由は?
    
    <事前疑問点>
    Q: 推薦されたスケジュールに合わせた生活は可能か?
     例えばTV。録画はどうする?
    
    


    一般セッション:(言語処理の)分類

    座長さんも聴講者も予稿までちゃんと目を通した上での質問が多く、質疑時間5分の割には濃厚な時間になってました。凄い。

    問題意識:学習カルテ提供による自己分析/引き継ぎ資料作成コスト削減
    
    
    Q: TFIDF正規化/非正規化でノイズワードは正規化した方が多くなったが、
     最終的なF値ではどちらが良い?
    A: F値では差が見られなかった。
    Q: 普通に考えると正規化した方が良さそうに思うが、何故差がでなかったのか。
     例えば「こういう例があった」というものが無いか。
     何故ノイズワードが増えるのか。
    A: 設問において文字数が多くないので正規化/非正規化で何か差が出ると
     思ったが、あまり見られなかった。
    Q: その辺りも考察してみると良さそう。
    
    Q: そもそも非正規化よりも正規化がうまく表しているという根拠が
     ノイズワードだけにみえるが、何故それを根拠にしたのか。
    A: 以前の実験で、TFベクトルとTFIDFベクトルで行った際にはノイズワード数の
     大小で比較できた。
    Q: ノイズワード以外に現れている語に重なりもあるが、違う語も出てきている。
     どちらの語がより設問の特徴を表しているかについては検討したか。
    A: 今回は考えていなかったが、今後考えていく予定。教科書にある太字単語等を
     重要度にして指標として使うことを考えている。
    
    Q: 試験全体において設問を特徴付けるような語はそもそもあるのか。
     データを眺めていて気づいたものがあれば。
    A: 教科書の太字単語は良く出てくる。
    Q: それなら太字を使えば良いのでは。
    
    
    
  • ニュース記事の国別クラスタの作成と多国間対応の実験評価
  • 問題意識:報道姿勢や内容には各国の思想や文化等による違いが表れる
     ユーザが各国の価値観の違いを比較できるシステム
      各国がどのような話題に注目しているか
      ある話題に対する各国の注目度の差の比較
     Q: 話題の定義は?
     Q: タイトルや本文をどうベクトル化する?
     Q: 国別クラスタリングはどうやる?
     Q: 国別クラスタ間のマッピングは1対1対応とは限らないのでは?
    
    
    Q: クラスタリングして対応付けるということだが、
     クラスタ数はどれぐらいになった?
    A: 1記事でクラスタになることが殆ど。日本記事数1655で
     クラスタ数600~700程度。
    Q: どれか1国を決めて基準になるクラスタを決めて対応付ける方が良いのでは?
    A: 国別のクラスタリング結果F値が大きく異なるため、
     基準を設けるのは難しそうな印象。
    
    Q: 各国の注目度の差を見たいということに対して、今回のタスクは同じ記事か
     どうかを推測するタスクになってるように見えるが、今回のタスクはどういう
     位置付けなのか。類似度の高く無い意味とか。
    A: 報道の方向性が似通ってるなら全体的に類似度が高くなるが、
     違ってる場合には重要後のみが共通しているという状況が出てくると思う。
     そういうところからアプローチしたい。
    
    
    
  • Wikipedia記事に対する類似記事群の出典傾向の提示方式
  • 問題意識:記事への出典付与コスト緩和
     Q: 信頼性を高める際に出典付与の有無だけで判断して良いのか。
     記事毎に出典傾向が異なる
     出典のつけられていない記事に対して出典を探すべき媒体を提示
      一つの記事が複数カテゴリに所属
      カテゴリ毎の社会的認知度に差がある
      →より狭い範囲でのカテゴリ毎に平均した傾向を取る
     Q: 記事単位ではなく、文章単位とかより細かい単位での出典傾向、もしくは出典が求められるといったことを提示できないか。
    
    
    Q: 存命/非存命で分けるという観点は面白いが、急に無くなられたからといって
     傾向が急に変わるという訳ではないと思う。
    A: そういった例もあるが、将来的には生まれた年によるグルーピングも考えている。
    Q: そういうパターンがカテゴリ毎にも変わるんじゃないか。
    A: 検討したい。
    
    Q: 根本的な所は出典傾向が似ていれば一つのグループにまとめられるのでは
     ないかということ?
    A: 出典傾向がまとまっているグループを見つけるためにグルーピングしたり
     出典付与具合で確認している。
    Q: Wikipediaで出典を出す場合に参考にするということのようだが、
     出典傾向からグループを作成することもできるのでは。
    A: 検討したい。
    
    Q: 出典傾向については納得したが、編集者にとって出典を探すための支援に
     これがどのぐらいになるのかが見え難い。出典支援を考えたら出典は記事の
     まとまりや一文毎につけたりすることもある。どのぐらい有効になるのか。
    A: 何も情報がないよりは傾向を出しておけばマシだと思う。Wikipediaは
     仮出典つけるとしても編集者によって消されることもある。
    Q: 調査結果は面白いので、もう少し別の方向に活かすことも検討してみてはどうか。
    
    
  • 同一事象に対する異新聞社記事間の相違点検出のための文間対応とその評価
  • 問題意識:事象の扱われ方の違いを検出
    問題意識:新聞社毎の見解や意見の違いを検出
     クラスタリング→文間の対応付け
     形態素一致率
      Q: 単位は「文」で問題ない?
    
    
    Q: 文間対応はクラスタリング結果が影響していないというようなことを
     述べられていたが、文間対応の結果も良いかイマイチか言いづらい結果に見える。
    A: 再現率に関しては影響が無い。
     取るべく対応のものは同一クラスタに存在することを確認済み。
    
    Q: 文間マッチングする際の文の選択はどうやる?
    A: 1〜3文単位での総当たり。
    Q: 「ある出来事」というのは時間的推移がある。DPマッチング的な遷移を
     含めた応用は考えられないか。
    A: 記事の日時は取っているが、まだやっていない。
    Q: もう少し緩く対応を取るとかしたくなる時に使えないかと感じた。
    
    Q: 最初の質問について、今回の実験では問題無かっただけで、
     今後のデータ次第では問題になることも考えられる?
    A: 可能性はある。
    Q: クラスタリングを使わない手は考えられない?
    A: 総当たりのため、計算量削減のためには必要。時間的推移的な類似度の
     利用等で代替も可能かもしれない。
    
    Q: ある新聞社はある評価をしつつ、別は評価をしていないこともありえる。
     そこはどうやって扱っていこうと考えているのか。
    A: クラスタリングで考えている。
    
    
    
  • Web検索結果のラベリングにおける閾値の利用について
  • 検索結果をクラスタリング提示
    クラスタへのラベリング:重要な単語TFIDF
     問題意識:TFIDFだけでラベル決定できない
      一致率の採用
       Q: TFIDFとの比較結果は?
    
    
    Q: 既存ロボット型問題点としてユーザがキーワード思いつかないケースを
     上げられたが、システムにおいて検索結果を取得するのは誰が行う?
    A: ユーザが行う。
    Q: キーワード思いつかないケースに対してそれは適切なのか?
    A: 思いつくのが難しい場合、より曖昧なキーワードを入力すると思う。
     曖昧なキーワードを入力した上で検索結果から得られる下位概念を提示する
     ことで対応している。
    
    Q: 正解ラベルを生成するのは実験者がやっているようだが、その判断基準は?
     迷ったりすることはなかったか。
    A: 迷うことはあった。ラベル一つしかつけてないがラベルにも複数の意味がある。
     同じ内容を表していても違う単語のケースとかも。
     厳密にしていく必要性は感じている。
    Q: そこが基盤になっているので複数人に評価してもらっているのは良いと思うが、
     人によってWebページの捉え方が異なると思う。処理は難しくなるかも
     しれない。大量の正解ラベルを付与しておいてそこから絞り込むような流れの
     方が良いように思う。今回のように1ラベルで解決しようと下理由は。
    A: 実験前の段階ではそのような差異がないと考えていた。
     しかし実験するにあたり複数ラベルの必要性を感じた。付けてる傾向はある。
    
    Q: ラベルを名詞や複合名詞一語で表すことはそもそも可能なのか。
     WISDOMだと極性とかも考慮されている。ラベル1語というアプローチは、
     本来目的とされている「利用者が探しやすい」という要求を満たすようなものなのか。
    A: そのような評価はまだやれていないが、確かにラベル1語ではなく複数語を
     検討する必要性は感じている。
    Q: 次元数削減はクラスタリングで削減?
    A: クラスタリング前に削減した上で、クラスタリング。
    Q: ラベルの次元数を削減するということとラベルを選ぶことの次元数を削減する
     というのは同値? 「次元数が多いトラベル候補が増加」というのはどういう
     意味? クラスタリングの次元数を減らすかどうかは別問題?同じ問題?
    A: 両方を対象としている。クラスタリングする際にも素性が多すぎると問題が
     起きるので、良好な素性のみを使ったクラスタリングを行いたい。
    
    

    FIT2011, day2

    木曜日, 9月 8th, 2011

    FIT2011の中日が終わりました。これで2/3のスケジュールが終了したことになります。

    2日目のプログラムはこちら

    午前中はイベント企画サイバーフィジカル情報革命 ~情報爆発から価値創造へ:米国NSFの最新動向~
    蛇足ですが、イベント会場1,2共に人数は結構入るのですが、スクリーン自体のサイズがやや小さかったり、プロジェクタ投影サイズと合ってなかったり、位置が見づらかったりしたのがやや残念。

    午後は一般講演「言語資源」に参加してきました。

    青字は質疑応答時のやりとりですが、ニュアンス自体が大分違ってる可能性が高いです。


    目次
    イベント企画: サイバーフィジカル情報革命 ~情報爆発から価値創造へ:米国NSFの最新動向~
     ・Big Dataとサイバーフィジカル
     ・統合情報基盤としてのサイバー・フィジカル・システムにおけるオープン・スマート・フェデレーション
     ・ポストペタスケール時代の情報分析技術
    一般講演: 言語資源



    イベント企画: サイバーフィジカル情報革命 ~情報爆発から価値創造へ:米国NSFの最新動向~

    Big Dataとサイバーフィジカル

    本題に入る前に
     震災にどれほど役立つことができたのか
      何ができるのか、対応のトレーニングが重要かもしれない
      ヤシマ作戦:Blog, Twitterの比較
       情報伝搬(避難口情報広がり方)の可視化
        ヤシマ作戦に見る草の根的な Diffusion Pattern (拡散パタン)
        インフルエンサーによる拡散パタン: e.g., 有名歌手による募金
       人の呟きがセンサ
        Twitter Sentiment, psyng.com
       スパイク(瞬間的な発火)を見るのではなく Diffusion Pattern を見る時代へ
       多様なITメディアのリアルタイム解析
    
    NSFの最新の動き
     CPS PI meeting in Washington
     The Growing Imperative and Transformative Impact of Cyber-Physical
     Digital Future
      explosive growth of scientific and social data
       melding of the cyber world with the physical world
    
人のつぶやきは大したことは無い。モノ(センサ)がしゃべる時代へ
     The Age of Observation
     CPSプログラム自体は数年前から始まっててるもので、新しいモノではない
      フィジカルワールドにくっついてきていることを真摯に受け止めようという流れ
     表現は違うがだいたい同じ方向感
      CPS, 情報爆発、情報大航海、Smarter Planet, IOT, M2M, Big Data, etc.
     CPS Research Gaps
    
    基本アーキテクチャ
     Cyber World  Physical World
      センサを通したフィードバックのある世界
    
    事例
     船の運航(省エネ運行)
     ウェザールーティングによる最適計画
     物流 by NEC
      SeeT-navi
     人の健康
      情報薬:適切なタイミングで提供される情報
      保健指導の大幅な効率化
       問題点:個々の多様性が大きい
        transfer learning
     個々のサイバーデータ活用事例はそこそこある
    
    Big Data
    Personal Data: The Emergence of a New Asset Class
    
    
    Q: CPSの応用例に米国・海外のものが上げられたが、
     日本が独自にやらなくてはならないものがあるか。
    A: アプリケーションドメインの幅は広がる一方で、今回書介したのはほんの一例。
     例えば空港の価値が諸外国に負けているということを情報集約の観点から解析したり。
     いろんな所に挑戦していくべき。
     ポイントは、複数のステークスホルダーが跨がっている所が面白い。
    
    


    統合情報基盤としてのサイバー・フィジカル・システムにおけるオープン・スマート・フェデレーション

    Improvisational Federation
     即応的な対応が重要。適応に至る一歩手前。
      大規模かつ多様なデータ、開放されたもの。シナリオは計画されていない。
     Lower/Middle/Application layer
      Cyber/Physical cloud
      Open library: cyber-physical knowledge-processing
    
    Open smart federation architecture
     Generic Wrapping of Resources
     Integrated Data and Knowledge Presentation
     Virtual Reification Framework
      視覚化フレームワークではなく、
      相互作用的に機能するオブジェクトとしてのフレームワーク(?)
    
    Meme Media & Meme Pool
    The Memetic Web
    PadSpace for Knowledge Federation
    Cyber data mining (ill-formed)
     interactive visualization
     improvisational combination of tools and application to CPS data
    
    Reexamination of Disaster Response System in U.S.
     Before: NIMS
     After
      Balancing between Agility and Discipline
      Technology-Mediated Support for Public Participation & Assistance
    
    
    Q: 大震災例だとその場に専門家がいる訳ではないことがある。(殆ど聞き取れず)
    A: いろんなスキルレベルの人が関与する中で、
     各々のスキルに応じて適切なツールを提供する事は大切だと思う。
    
    


    ポストペタスケール時代の情報分析技術

    データ構造といったことだけではなくハードも含めた新たなパラダイムの必要性
    「データはめしのたね」
     処理や通信といったスペック向上だけではNG
      PCはどんどんほぼゼロコストに
      電力、スペースは高いまま
     付加価値
      情報爆発→どんどん探し難く→データの目的に踏み込む必要性
     東北大震災の1年前から話が出ていた: e.g., オーストラリアの山火事
     世界的に必要性が高まってきている
    
    スマート・プラネット
     単にデータを蓄えるだけではなく具体的に何をしたいのか。
     クロスドメイン、多種多様なデータ、性質も異なる。
      種類や時間軸の異なるデータの合成や複合的な分析により情報価値を高める。
     蓄積→分析→推薦→アクションにまで繋げる
    
    事例
     港湾・河川のリアルタイム監視
     世界の個人のDNA解析による人類の起源の調査
     電力需要と気象の監視・予測→発電量の最適化
     センサを増やすだけでは足りず、分析技術が必須
      より多くの事象をモニターし、より迅速な意思決定の必要性
       Q: 意思決定にもバリエーションが多々あるが、汎用的に提供可能か?
      Big Data + Learning Systems
    
    Big Data: Deep Analytics and Reactive Analytics
     蓄積しているデータ+流動するデータ
      少ないデータで即時に反応する必要のあるケース
      大量のデータに時間をかけて反応する必要のあるケース
      迅速な処理系とディープ解析を統合
       リアルタイムにフィードバック得ながら洞察可能に
     データが沢山あっても全部見れる訳じゃない。
     見えない部分(間)を補完/推測する必要がある。
    
    Learning Systems
     従来:システム毎の出力は同一
     学習システム:持ってる知見から出力(異なる可能性、むしろ異なって然るべきかもしれない)
     進化する学習システムと人間の関与
      仮説/学習/検証エンジンの導入
    
    
    Q: 仮説/学習/検証といったこれまで人間がやってきた部分をやりたい
     ということだが、どこまでできているのか。
    A: 非構造化データにアクセスするという点と、仮説を持ち、検証する所は
     ある程度可能になった。ポリシーエンジンについても。
     完成はしていないが、Watsonとして意思決定を下せるレベルにはなった。
     一方、対話しながら混乱するケース(人ごとに異なることを主張されるとか)、
     DB内の矛盾等についての学習等、いくつか解決すべき問題も見えてきた。
    
    


    一般講演: 言語資源

    • 名詞と動詞の共起に着目した状況認識
    問題意識:会話の状況や文脈といった内容の推定
     単語の共起データの活用
      EDR電子化辞書:膨大、動詞を基準とした特殊な記述なので扱いづらい
       親密度を用いることであまり一般的でない単語の削除
        Q: 親密度はドメイン毎に異ならないか?
      インターネット上のコーパス
       検索エンジン:動詞→名刺/助詞パターン
     寄席文(三題噺)生成
      Q: 何を評価している/評価することになるのか?
    
    
    Q: 共起を利用して文を生成したものを評価するということは、
     何を評価していることになるのか。
    A: 連想的な意味での内容をうまく表現出来ているという評価になると考えている。
    Q: 共起を用いている時点でそれなりの自然らしさは実現出来ていると思うが、
     問題になるのは素朴に共起を用いることででてくる例外をどう取り除くかだと
     思う。何かしら検討しているのか。
    A: 今の所まだ未検討。
    
    Q: EDR格フレームを選択した理由は?
    A: 研究室で扱いやすい環境だったのが大きな理由。
    Q: フレームネットもあるので、それとの比較やサーベイ等はあるか。
    A: 他データとの比較は行っていないので検討したい。
    
    Q: コメントになるが、
     動詞だけにすると「頭に来る」とか意味が変わってくるので、
     動詞だけというのはやめた方が良い。
    A: ありがとうございます。
    
    
    
  • オントロジーを用いた民具研究者支援システム
  • 対象:民具(現役引退した地域の語り部になる道具、古い道具)
     民具カード:制作者毎に書式が異なる
     経緯:使用目的で検索し難い点を改善
      意味オントロジーの導入
       検索単語を含まなくても検索単語に近い内容を含む検索
       「穴をあける」といった共通項を利用した検索
     目的
      民具分類方法(文化庁分類)の抱える問題:1民具1分類
       Q: 図書の分類でも1図書1分類だと思うが、分類自体を詳細に検討
        することで解決できないのか。何が問題なのか。
      →機能分類に沿った振り分け
    
    
    Q: オントロジーを作られたということだが、どう作ったのか。
     参考にしたオントロジー体系はあるか。
    A: 先輩が作成したカクテルオントロジーを参考に。
    Q: それはアルコールというモノの種類のようだが、動作的なモノは?
    A: 動作に関しては無い。データを見ながら構築した。
    Q: 折角作ったオントロジーなので、既にあるものとの親和性について
     検証してはどうか。
    
    Q: is-a, instance-ofが出てきたが、どう使い分けているのか。
     例を見る限りではis-aにしか見えない。
    A: 「害虫is-a昆虫」ではどちらでも可能だが、
    Q: どちらでも良いのなら分ける必要性が無いのでは。
    A: 大雑把すぎるので分けた方が良いと考えている。
    Q: instance-ofはより具体的な、this とかつくようなケースだと思う。
    
    
    
  • 多対多の関係性を持つ多言語用例対訳のデータ構造の提案と評価
  • 問題意識:一意に変換できない用例(多対多)の存在
     メタノードを用いて一意に変換可能にする手法を提案
     用例対訳:一意に変換可能
      医療分野の用例対訳収集システム:TackPad
      用例間の意味の確認
       用例間リンク
    メタノードの自動生成
     部分的に完全グラフとなっているものをメタノードに結合
      メタノードの選択に問題が残る
       メタノードへの意味の付与
        フォーマル/インフォーマルを人手付与
         Q: 選択できるのは人間だけ?
         Q: 他にどういう種類がある?→病名、症状
    
    
    Q: 医療現場で試してみる?
    A: NPOと協力して病院関係通訳者らと話合って出てきたので取り組んでいる。
    Q: 実際に使ってもらった?
    A: まだ使用する段階になっていない。複雑になっているのでなんとかしたいと考えて今回の手法になっている。
    Q: 用例はかなり作成コストの負荷が高いように思うが。
    A: 今回とは別の例になるが、工夫も試している。
     花粉症に関する言葉を集めてみるとか。分野を限定するとか。
    
    Q: 完全リンクを求めてメタノードを付与するようだが、その時に完全グラフを
     構成しているノードの数の多さと重要度との関連性はありそうか。
     例えばメタノード数の大小で用途が変わるとか。
    A: 結合ノード数自体が重要になる場面は少ないかも。ただし、提供する場合に、
     2〜4では足切りした方が良いケースが多いという傾向はありそう。
    
    Q: メタノードを使うことによる本質的な利点は何?
    A: 4言語を扱ってる状況を想定して欲しい。例えばタッチパネルで組み合わせて
     使うことが多いが、言語を切り替えながら使うとなる状況でどれに変換すべきか
     が悩ましいことが起きる。
    
    
    
  • コーパスを利用した自然言語研究・学習・教育支援システムの開発に向けたRDBMSの評価
  • 英語コーパスを用いた教育者の活動を支援するシステム開発
     問題意識:コーパスを統合し、一括して解析できるシステム
      データ蓄積部分+解析部分
      統計解析・検索ツール/学習支援ツール/教育支援ツール
      ARE(Allocation of Remarked Elements)による構造表現、属性情報付与
    
    
    Q: 背景で、様々な用途を統合するという話があったと思うが、RDBではスキーマを決めてしまう必要性があると思うが、決め方や拡張性に問題は無いか?
    A: 属性付与については問題無い。
    Q: 属性情報を追加したいとなっても対応できる?
    A: テーブル増やすことで対応可能。
    
    Q: RDBを使う目的や意図は?
    A: 文の構造を管理するだけでなく、構造に対する属性情報を管理できること。
    Q: XMLのままで何故いけないのか?
    A: 解析対象が複数ある時に、様々なフォーマットがある。
    Q: 一つのコーパスに対して複数スキーマで同時に対応する?
     XML化してしまうとタグ振ることで解決できるが、
     他フォーマットでも同様のことをしたい?
    A: はい。
    
    
    
  • 自動生成された常識的知識を表現する文の自然性判定
  • 常識を利用した研究が日本語ではあまり盛んではない
     問題意識:常識データベースが公開されていない
      日本語WordNet、ConceptNet→常識的知識を表現する文の生成
       Q: 「常識的知識」を文で表現しようと考えた理由は?
       Q: 用例とは何が違う?
     同意名詞の獲得
      大量文生成
      判定(スニペット共起回数/完全一致割合/活用検索割合)
       Q: 検索エンジンの結果に依存して問題は無いか?
    
    
    Q: 常識をどのように考えているか。例えば「外に出てみたら道路に出ていた
     →雨が降っていた」というような推論? 単なる共起性の判定?
    A: 常識的知識として、常識・文化的知識・専門的知識を含む知識で、
     推論を含まない単純な知識。
    Q: 文法的にも意味的にも満たしているのは全て含む?
    A: その通り。
    Q: 共起性判定との違いは?
    A: 共起するものを閾値として利用しているが、最終的に実際にWeb中にあるもので、単純に共起しているものではないものも扱っていきたい。
    
    Q: 常識的知識を文章として表現しているが、用例とは違うのか。
     用例コーパスは大量にありそうだが。
    A: もっと大量に作りたい。まずはConceptNetのコーパス拡張。
     最終的にはパターンのような形で常識を生成できると思う。
    
    Q: 普通常識だとスニペットに出て来ない気もするが。
    A: 全く出て来ないものというのはあまり無いと考えている。件数だけだと
     除外されてしまうケースでも、割合を考慮することで救済できると思う。
    Q: 否定についてはどう扱う?
    A: 今回は処理していないが、否定文を否定として扱うこと等も考えている。
    Q: 「夏は寒くない」という文章なら沢山ありそうなので、そこから常識を
     抽出しようとした方が沢山取れそうな印象。
    
    Q: チャレンジングな課題に思うので頑張ってください。
    
    
    
  • 日中機械翻訳のためのスーパー関数抽出における対訳辞書自動構築
  • スーパー関数
     変数と定数からなる。任意一部分を変数とし、残りを定数と定義。
     変数を入れ替えることで別事象を表現。
      対訳コーパスさえあれば、スーパー関数抽出が可能→翻訳可能
    問題意識:名詞だけを変数と定義してるため、資源浪費。
     ほぼ同じ文でも異なるスーパー関数が必要になる。
      助詞と助動詞のみを定数、それ以外を変数と定義→関数整理。
      ただし、訳語の選択問題が残る
       対訳辞書の自動構築で解決したい
        主語と動詞の共起を考慮
     中国語形態素解析精度の問題
    
    
    Q: 正解率86%となっているが、この結果はどう考えられるか。
    A: 3つ以上の要素が含まれるスーパー関数が使われる文を生成したが、
     多重訳を持つ文を判定するつもりだった。その場合には誤ったケースが見られた。
    
    
    

    FIT2011, day1

    水曜日, 9月 7th, 2011


    FIT2011の初日が始まりました。

    1日目のプログラムはこちら

    FITに参加し始めたのは去年からなんですが、年々全国大会並に参加者が増えてるんじゃなかろうか。一日の構成は「午前中に1セッション、午後に特別講演と1セッション。これらと並行してイベント企画や展示会」となっているのですが、この1セッションあたりの並列度が21個もあって、全体の1割見るのすら無理になってたりします。予稿自体は見れるから良いというのもあるけど、ちょっと広く薄くなり過ぎてないかなー。狭く濃くやるなら研究会に行けよという話ではあるので、そっちにも参加する予定ではありますが。

    という訳で、あくまでの私自身が参加したプログラムに関する備忘録になります。

    午前中はイベント企画機械学習の最前線
    参加してから気づいたんですが、IBISML(情報論的学習理論と機械学習)研究会(Web URL、Twitter: @ibisml)主催のチュートリアル企画でした。興味があってMLにはROM参加しているのですが、どおりで興味のあるテーマが揃ってるチュートリアルな訳だ。プログラムにもそう書いててくれれば迷わなかったのにー。

    午後は特別講演と下地くん発表の一般物体認識セッションに参加してきました。

    青字は質疑応答時のやりとりですが、ニュアンス自体が大分違ってる可能性が高いです。

    食事の様子はこちら


    目次
    イベント企画: やさしく分かる機械学習の最前線 ~データから意味を読み取る~
     ・隠れた構造をあぶりだす ~トピックモデルを用いた潜在意味解析~
     ・こんなに使える最適化手法
     ・自然画像の事前確率分布を応用した画質改善

    特別講演: 粘菌の行動知 ~原始生命システムの自律分散情報処理~

    一般セッション: 一般物体認識



    イベント企画: やさしく分かる機械学習の最前線 ~データから意味を読み取る~

    隠れた構造をあぶりだす ~トピックモデルを用いた潜在意味解析~

    文書
     同じ文書で現れやすい単語のまとまり(トピック)
     各文書は少数のトピックを持つ
      Q: ツイート等の短文ではそもそも表出するシンボル数が少ないが、問題にならないか?
    画像
     同時に共起しやすい(写り込みやすい)対象
    
    トピックモデル=隠れた構造(トピック)を抽出するための確率モデル
     教師無し学習
     拡張容易
  トピックに相関を持たせたり、トピック間に階層構造持たせたり、
      観測データを増やしたり、etc.
     文書に限らず様々な離散データに対して有効性が示されてきている
    
    入力: bag-of-words
     単語集合表現、順序無し
     シンプルな多項分布:全文書の単語が同一分布であると仮定
     混合多項分布:複数の単語分布があると仮定(1文書は1トピックを選択)
     トピックモデル:1文書の単語が複数の分布から生成されると仮定(単語毎にトピックを選択)
      複数トピックを持つ文書も表現可能
    
    PLSAとLDA:代表的トピックモデル
     基本的には一緒で、ディリクレ事前分布を仮定しているのがLDA。ベイズ的。
     ディリクレ事前分布:多項分布のパラメータを生成するための分布
     性能的にはトピック数等実験設定にもよるが
      多項分布<PLSA<混合多項分布<LDA
    
グラフィカルモデル
     変数間の依存関係を図示したもの
    
    学習(Collapsed Gibbs サンプリング)
     θとφを積分消去:共役事前分布を用いているため可能
     入力:文書データ、トピック数K、ハイパーパラメータα・β
     未知変数:
    
    応用例
     時間変化するトピックの解析
      多重スケール時間(複数の時間スケール)でのトピック発展を解析するためのモデル
     内容と関連するタグの抽出
      ソーシャルアノテーション:SBM、写真共有等
      内容と関連しないタグ:後で読む/これは凄い(主観評価)/etc.
     ファッション推薦
      写真からコーディネートを学習、上衣から下衣を推薦
      上衣と下衣に分けて特徴量学習
    
    
    質疑応答
    Q: スーパーパラメータの推定の仕方は?
    A: MCMC+サンプリングからの導出など、事例データからの推定方法がいくつかある。
    
    Q: ファッション推薦の評価の仕方は?
    A: 雑誌写真で片方を隠した状態で評価。実際にユーザによる評価もすべきだと思う。
    
    Q: 内容に関連しないタグを抽出すると何に使える?
    A: その後の学習等の際に除外することで精度向上等につながる。
    
    


    こんなに使える最適化手法

    計算機性能向上+アルゴリズム進歩に伴い現実問題に対しても有効な手段に
     PCクラスタ利用した例だとスウェーデン全都市TSPでも最適解求まる段階に。
    
    最適化分野の概要
     意思決定・問題解決のための一手段
     定式化+最適解の計算+最適解の検証・分析
     制約条件を満たす解の中で目的関数を最小(最大)にする解を求める問題
      線形計画問題
       数千〜数万パラメータぐらいでも一般的なPCでサクサク解ける
      MIPもほぼ現実的なサイズで解けるようになってきたので、
      研究対象としては非線形なMIP等がトレンドになりつつある
    
    計算困難な組み合わせ最適化問題
     易しい問題
      多項式時間で最適解を求めるアルゴリズムが存在する問題
      割り当て問題→ハンガリー法、最短経路問題→ダイクストラ法等
     難しい問題
      厳密な最適解を求めるのに最悪の場合に入力サイズに対して指数時間を要すると
      臣事されている問題、NP困難問題
    
    現実問題に対するアプローチ
     厳密解法と近似解法
     汎用解法と専用解法
     既存ソルバーの利用
      かっちりとハマる専用ソルバーが見つかる事は稀
      汎用解法のソルバーもいろいろ揃ってきている
     自分でソルバーを開発
      試行錯誤に十分な開発期間があれば良い選択肢。
      ランダムウォークの方が効率良いことも。
    
    事例
     集合住宅における電気自動車の充電計画
     事業所における電気自動車の充放電計画
  時空間ネットワーク(time-expanded network)
     統計的機械翻訳におけるフレーズ対応
     基盤検査におけるプローブ経路計画
     多角形詰め込み問題
    
    
    Q: 整数計画問題→線形計画問題にして解き、後で丸めてしまうのが楽という話が
     あったが、0,1しかでてこないケースでも良いのか。
    A: 問題によりけりだが、0,1のケースでは丸めるのは難しい。
    Q: 0,1変数しかない場合で解き難いケースでは、メタヒューリスティックに行くのが良い?
    A: 0,1変数でも分枝限定法なりで解けるケースもある。
     必ずしもメタヒューリスティックが良いという訳ではない。
    
    


    自然画像の事前確率分布を応用した画質改善

    事前確率分布
     函館といえばイカ刺しが美味しいはず!
    尤度分布
     ひょっとしたら今朝のホテルのイカ刺しは
     東京で食べるイカ刺しと同じ味かもしれない?!
    事後確率分布
     しかし「事前確率分布」の思い込みの分だけ、
     実際にイカ刺しは美味しく感じます!
    
    事後確率最大化法(MAP法)を応用した画像処理紹介
     超解像処理、ぶれ回復処理、デノイジング処理、、
     逆問題として定式化:不良設定問題
      y=Ax+n, E(x)=||y-Ax||^2_2
      事前確率分布を設定することで一つに特定しやすくなる
    
    事前確率分布(思い込み)が大事
     観測する前から分かっている情報(思い込み)を数学的に表現し学習するのが難しい
     適応的事前確率分布モデル
     事前確率の更新(繰り返し処理)
    
    事前確率分布を使わない方法:ML法
     ML法:最尤法(尤度最大化)
     MAP法:事後確率最大化(事前確率分布を利用)
    
    
    Q: 事前情報のアップデートはずっと続けるとoverfittingになるのか?
    A: はい。
    Q: どうしたらよいか?
    A: 経験的にやることになるが、PSNRを示せる真値のあるデータで
     やってみるのも一つの方法。
    
    Q: 事前分布を構成する部分についてMAP推定しているが、
     ベイズ使うなら1点を求めるのではなく分布を求めるのが自然に思う。
    A: その通りで、最良推定に近くなっていると思う。分布を求めることも可能。
    
    Q: 画質改善の場合、見栄えを良くする場合と真値にすること自体が目的の場合とで
     分けて考えるべき?
    A: その通りで、犯罪捜査のようなケースだと真値が重要。見栄えの場合は、
     方法論としてTV対応等の場合にリアルタイム処理といったことが必要。
    Q: 提案手法のスケーラビリティは?
    A: 100枚でも1万枚でも問題内容な方法を提案。ただし位置合わせ的な前処理は必要。
    
    


    特別講演: 粘菌の行動知 ~原始生命システムの自律分散情報処理~

    迷路等の幾何学的なパズルを解くという事実
    時間的な記憶とでも呼べるような、周期的な環境変動を学習して思い出す
    個性や逡巡と思える行動
    
    粘菌紹介
    ビデオ:Like Nothing On Earth
     多核の単細胞生物:脈打ちながら周囲を覆い尽くす様
      複数の個体がぶつかり合うと1つの変形体に合体
      切っても1個体として生存
      Q: 1個体として繋がり合おうとする欲求or利点がある?
    
    パズル解き
     迷路中にバラバラに配置→合体
     入り口出口にオートミール設置→最短路へ
      生理的要請
       体が繋がっていて、十分情報交換できること
       なるべく早く大量の養分を吸収すること
    
    流れに応じて太さが変わる管(管の適応性)
     管の流れが多いと管は太くなり、少ないと細くなるという性質を持つ
     管を水道管ネットワークとしてモデル化
      管:長さと太さで記述
      えさ場:流入、流出(流量は固定)
      さらに適応ダイナミクス(強化と減衰のバランス)を導入
       保存量を介した相互作用
       個々の管が独立してバランスを保持するように固定流量に沿うように行動
       →シミュレーションで再現
    
    場所の違い:危険度最小化問題(部分的障害光照射エリアを避ける)
     光が当たっている箇所への縮小項のパラメータを拡張
     数学的に同等な問題:光の屈折(砂浜+海)
    
    どこが情報処理?
     ビット列でない「情報」表現
     物理運動が処理過程
     管同士で流れを取り合うと自ずと最短経路が求まる
      脳のような司令官が無くても賢く振る舞う仕組み?
      集団運動の自己組織化/自律分散処理
    
    カーナビへの応用
     概して悪い経路から消滅、時々刻々かわる渋滞に適応
     現行のダイクストラ法にない利点
    
    沢山のえさ場を繋ぐ
     3つの異なる性質を「ほどほど」に満足
      全長の長さが短くなるように(コスト)
      耐故障性:断線に対する連結補償性 *何でこれが必要?
      連絡距離:効率
     社会インフラのネットワークが持つべき性質
      鉄道網の粘菌式デザイン
       モデルではパラメータで耐故障性/コストをチューニング
    
    時間記憶?
     刺激タイミングの予測+思い出し
     モデルの仮定
      粘菌自体が何らかのリズム現象(拡大/縮小/動くためのリズム)がある
      そのリズムは多重である
      リズム(振動子)は位相のみ、振幅は無視
      同じリズムを持つ振動子が多数
      全振動子の平均的挙動(秩序パラメータ)が移動速度
     モデルの振る舞い
      自然刺激に近い振動数を持つ振動子群がクラスタ群(スーパークラスタ)を形成
       すぐには壊れず、予測的な動作に繋がる
       暫く刺激が無いと壊れる(重心を見るとないように見える)
    
    迷い・個性?
     弱い毒キニーネに遭遇→立ち止まる→通過/分裂/引き返し
      Q: 弱い毒で分裂が起こるなら、耐故障性との兼ね合いは?
      Q: 個性?どの個体でもいずれかを選択しうる可能性があり、
       スーパークラスタとの兼ね合いで決定される?
     暑い先端部が消えたり現れたり
      モデルのアウトライン
       ゾル、ゲルの2相流体
       ゲルの張力発生によるゾル流
       早い線形弾性と遅い塑性
      2つのサドルが近接した解起動が振り分ける
     類似のモデル
      導火線のアナロジー
       粘菌の先端らしさの活動性(燃え尽きたマッチの再生を考慮)
    
    書籍:粘菌 その驚くべき知性
    
    
    Q: 数学系の研究者らとの共同研究になっているケースが増えているようだが、
     生命とは何かということについて何か思うところはあるか。
    A: 手短に述べることはできない。ある米国研究者の議論によると「何でも
     定義できると思ってはいけない」ぐらいの定義しか出て来ないらしい。
     どれもまずは物理現象だと思おう。それでいろんなことが、生き物の
     生き物らしいことも理解できるんじゃないかと思ったのが15年ぐらい前。
     根は生物学者だが、ロジックは物理や数学。思いもよらないロジックを
     うまく使えばいろんな生命現象が説明できるのかなという期待を持っている。
    
    Q: 情報処理という分野はコンピュータの性能を良くしてどんどん早くする
     という方向に進む。スローライフではないが、それに則した情報処理技術を
     探すべきかなという観点もある。粘菌はどんな情報処理要素でどう処理して
     いるのか。そのモデルをうまく使えれば良さそうに思うが、何かないか。
     生物にならえという感覚について。
    A: そういうことを考えていきたいと本当に思う。早くなることは良いことだと
     思うが、解き方。力づくでやるのではなく、批判している訳ではないが、
     何か違う解き方が沢山ある。人間の顔認識でもそうだし、何か機会に
     やらせようとすると難しい所があるが、人間は簡単にやっているというような
     ケースがある。例えば野球でのフライの取り方。弾道計算とかはしてない。
     明示的にいうことができないことについて一つずつ掘り起こしていったら
     面白いのではないか。
    
    


    一般セッション: 一般物体認識

    • A Semi-Supervised MarginBoost Algorithm Applicable for Dissimilarity-Based Classifications
    • マルチモーダル入力に対応した重み付き多数決による識別器
    • PatchMatchを用いた類似パッチの高速KNN探索法
    • ここまで立ち見でメモできず

    • SIFT特徴量の共起を用いた一般物体認識手法に関する基礎研究
    
    Q: 一般物体認識で領域を分けるという話があったが、
     PASCALデータセットからの領域切り出しはどうやっているのか。
    A: データセット内にマスクが含まれており、これを利用した。
    
    Q: モデル1と2の違いが良く分からなかったが、
     SVMで学習するための特徴ベクトルの作り方が異なるのか。
    A: SVMでの学習は行わず、ヒストグラムでの尤度判定、
     多数決程度の処理で判別させている。尤度なりを学習させていくことは検討中。
    
    Q: 領域毎にSVM、もしくはヒストグラム化したのをSVMでそのまま学習
     させるとどうなのか。
    A: 試行実験では認識率が低かった。学習時に領域切り出しはできても、
     認識時には画像全体で特徴量を構築する必要があり、
     そのミスマッチが大きく影響していると考えられる。
    
    
  • 3次元特徴量を用いた構造表現による一般物体認識
  • 問題意識:SIFT+BoFでは位置情報や関係性が失われてしまう
     デプス情報を用いた3次元グラフ構造表現
     D-SIFT→グラフ化→グラフ編集距離→識別器
      濃淡画像をモノクロ変換してSIFT
      3次元グラフ構造表現
       近接グラフ、疑似階層グラフ
      グラフ編集距離
       Q: 各編集コストはどう調整する?
    
    
    Q: どのぐらい時間がかかるのか? 例えばリアルタイム処理可能か?
    A: 普通のPCで半日程度。
    
    Q: 最初の発表におけるDissimilarityを使うということに近いように思うが。
    A: リンゴと桃、オレンジのように形上はほぼ違いが無い。
     それを区別できるように導入してみた。
    
    Q: 距離が合っていれば形状が正しいと考えて良いか。
    A: 必ずしも正しいとは限らない。
    
    Q: グラフ編集距離の求め方は?
    A: D-SIFT上で一定値を設けて近さを求めている。エッジの計算に時間がかかる。
    
    Q: D-SIFTはダメだという話なのか、物体の形状依存なのか。
     SIFT等と組み合わせて使うと良いとかありそうか。
    A: SIFTでは取れる(区別できる)ケースでも、D-SIFTではうまくいかない
     ケースがある。デプス情報からSIFTを取ること自体がおかしい可能性がある。
    
    
  • 移動ステレオカメラ画像中からの移動物体抽出と三次元データのセグメンテーションの検討 -SIFT特徴点を元にした前景・背景のエネルギー関数を組み込んだ手法の提案-
  • 問題意識:より頑健な(様々な状況に対応できるorより制約の少ない)移動物体抽出の必要性
     セグメンテーションの精度向上
      TMRによる動物体領域抽出
      複雑な物体:アフィン変換→Feature-Cut
    
    
    Q: 従来失敗していた原因と、それが成功したのは何が効いていたのか。
    A: Feature-Cutによる
    
    Q: 動画の背景が白く、セグメンテーションとしては簡単にやれそうな実験。
     従来法は、何故グラフカットに失敗しているのか。背景全体をシードにするのではなく、
     forground の外側をシードにするとやれるのでは。
    A: 考えてはいるが、形状にも依存してしまうため難しそう。
    
    Q: 今回の実験ではアフィン変換でも良さそうだが、ダメなのか。
     またより複雑な、実際アフィン変換では難しそうなケースではどうなるのか。
    A: 試していないので分からないが、Feature-Cutが高精度なのでこちらを中心に進めている。
    
    
  • 局所的色彩モーメント不変量で構成したベイジアンネットワークによる画像照合
  • 問題意識:似た特徴を持つ画像検索では特徴の選び方が重要
    局所的色分布特徴量
     RGB、色相関など
     色相関距離
     符号化
      Q: 単純な2値化の仕方としては面白いが、実際には統一ルールでは難しくない?
    照合エンジン(ベイジアンネットワーク)
     Q: ナイーブベイズと差が出てないのはどう解釈したら良い?
    
    
    Q: 部分画像集合の特徴値分布を使う考え方はうまくいきそうに思えるが、どうやっているのか。
    A: (再説明)
    
    Q: 特徴量の分布状態を評価していることに相当する?
    A: 計算した統計量から特徴値を2値に評価しているだけ。
    
    Q: 問題設定について。全く同じ写真を探したいのか、同じ被写体を探したいのか、同じ種類を探したいのか。
    A: 同じ種類のものを探したい。
    
    
  • 画像を用いた物体の詳細情報認識手法
  • 問題意識:物体とその物体の詳細を認識させたい。e.g., TV+電源ボタン
     詳細部分:人間が直接操作を行う部分
    
    
    Q: 位置情報を用いて補正する場合の基準となる減点は、特定の一点を使っている?
    A: 既に特定された部分で、かつ、一番近い場所を捜査して推測する。
    
    Q: 例えばキーボードの場合は多くのキーがある。文字認識が間違ってるやつもあるが、それもそのまま採用してしまう? 正しく認識できたものだけ利用するとかなり精度向上すると思うが。
    A: 今は採用してしまうが、検討中。
    
    Q: 無料OCRでGoogleのものがあるが、今回商用を採用したのは精度の問題?
    A: Googleは比較はしていないが、比較した中で精度の高かった最新版を採用した。
    
    Q: OCRソフトは想定している利用状況にも依存しそうだが。キーボードやるならキーボードの辞書使うとか。
    A: 文書対象なので文書だと前後の文字から補正することも可能だが、今回はそういった補正が効かない。そういった方向も考えてみたい。
    
    Q: リモコンの場合でもキー番号が独立して配置されているが、文字と文字の間に意味があるケースだとOCRの精度が高くなるのか。
    A: 高くなると考えている。
    
    Q: 文字を基にマッチングを行っていて、SIFT特徴量等で使われている幾何的な情報が使われていないが、そういった情報を使ってみても補正しやすくなるのでは。
    A: 試作中だがまだ検討段階。