情報処理学会 第74回全国大会の参加記録です。
年末に行った東京もそうなんだけど、やっぱり本土の「風がほとんどない中での寒さ」は沖縄の風の強さで冷える寒さと比べるとすこぶる快適。雨降ってると寒いかなと思ったんですが、それでも辛い寒さじゃない。真冬だとまた違うんだろうけど、今ぐらいの時期だと薄手コートで十分orやや暑いぐらい。
既にあれこれ食べてます(参考1、参考2)が、学会出張=ご当地グルメの方程式を満足するためには当然の行動です。
話を戻すと、今回の大会は名前の通り「情報処理学会」主催の全国大会で、年に一度開催されるお祭り。
「祭り」と表現してるのは「多岐に渡るテーマに関する話題・研究者が集う」からで、どのぐらい幅広いかはプログラムを見れば納得できるかと思います。
大雑把なスケジュールとしては、
・午前中の一般セッション
・午後に「特別講演or招待講演」+一般セッション
・それらと並行して特別イベント
のような流れで進むらしい。
一般セッションは並列して開催されてて、例えば初日は一般セッションがアルファベット1文字では足りず「ZA」「ZB」とか続いてるぐらい多く、30前後のセッションが同時開催されます。会場準備お疲れさまです。
名古屋工業大学のキャンパスは結構広い&建物が多いので迷子になりやすいからか、入り口で出迎えていた「メイちゃん」が(いろんな意味で)人気者でした。
ということで極々一部しか見れていないのですが、初日は
・(山内くんが発表するので)一般セッション[1C 会場] 情報検索・情報推薦
・学生セッション[2V 会場] 情報抽出・質問応答
に参加してきました。以下、その参加メモになります。
ちなみに、naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。
<目次>
一般セッション[1C 会場](3 月 6 日(火)9:30 ~ 12:00) 情報検索・情報推薦
学生セッション[2V 会場](3 月 6 日(火)15:00 ~ 17:30) 情報抽出・質問応答
一般セッション[1C 会場](3 月 6 日(火)9:30 ~ 12:00) 情報検索・情報推薦 座長 奥 健太(立命館大)
1 協調フィルタリング推薦によって誤推薦されたコンテンツに関する一考察 ○山内一騎(琉球大)
Q: 今回のサンプルデータは1000件ぐらい。データが揃って初めて使えると思うが、過去のデータがない分野、例えば500件とか100件とかでどれぐらい有効性が変わってくるのか。1000件で十分なのか。
Q: ユーザのプロファイルを作るという話だが、従来手法にも色々あるがそれらと比べて有利な点は?
Q: 従来手法でもコンテンツを特徴付けるという話もある。特徴ベクトルは0,1とは限らず0〜1の連続値もある。それとの違いは?
コメント: MovieLensはいくつかバージョンがあって、10Mの方が傾向を掴みやすいと思う。
(今回学会発表初の割には前日夜まで資料作成してて発表練習する暇無かったこともあって、
やや発表おかしかったところもあったけど、建設的な意見や参考情報教えてもらえたので良かったんじゃないかと。)
-> セッション終了後の記録
2 社会性を組み込んだ情報推薦システムの設計 ○小池克拓,打矢隆弘,内匠 逸(名工大)
身時かな人/気の合う人からの口コミ・評価(=社会性)を組み込んだ情報推薦の話。
協調フィルタリングだと推薦者が不明で推薦の信頼性や説得力に疑問が生じる。
Friend Filtering機構の導入
Friendクラスタ以外をフィルタリング
naltoma: 「お菓子」の例だとそもそも買いやすい(敷居が低い)が、それが受け入れやすさに繋がっていないか。
naltoma: 実世界でのクラスタを活用するのは良いが、本番ではそれをどう実装するのか。
Q: 友人からの推薦でどのぐらい精度上がるのかという実験だが、お菓子推薦のようなものだと同じ研究室の中で見ている人の影響が出てきそう。お菓子の味となると研究室内での共通性が無さそうだが、何故それを選んだのか、それで良くなった要因は何故か。
A: 論文推薦のようなものだと研究分野やゼミといった偏ったデータを取る必要がある。お菓子のような普遍的な題材の方が分かりやすい、嗜好を取りやすいから選んだ。所属の影響が出難いのかという点については、大学生に対してやってるので年齢差は出てないが2つの異なる大学での差異が出てるのではないかと思う。
Q: 今の大学の同じ研究室だから上手くいっているという特性もありえるように見える。
C: 信頼性を考慮した推薦については、ソーシャルネットワークを活用した事例「トラストなんとか」とかあるので調べて見ると良い。
3 アルゴリズム切替による情報推薦システム ○山本康平,打矢隆弘,内匠 逸(名工大)
CF推薦で同じようなアイテムばかり推薦されるのが困る。
それを時間帯によってアルゴリズムを切り替えることで解決したいらしい。
今回はユーザベースCF・アイテムベースCF・スロープワンの3種を切り替え。
時間帯毎に固定/ランダム/選択学習でアルゴリズムを決定。
naltoma: 時間帯をどう設定するのか?アルゴリズムをどう設定するのか?切り替え自体に意味があるのか?
Q: 適合率と再現率はどうなった?
A: まだ未調査。
Q: 時間帯に拘る理由は?
A: 朝食べたいものとか時間帯に起因した嗜好を汲み取りたい。
C: サイクリックな時間に対する推薦だったらこういう話で良いと思うが、映画のようなものではこういう話は当てはまらない。何をターゲットにした推薦なのかを明確にしておくと良さそう。
C: アルゴリズムを切り替えるというのは良さそうだが、「ある根拠で切り替える」というアイデア自体は既存手法があったと思う。状況に合わせた推薦をすると面白そう。
Q: 多様性の評価で「生起数の多さ」をしているが、アイテムが多くなると良いという評価で良いのか?
A: 推薦という点では多様性が増えたといえる。
Q: 推薦という意味では逆にそれがネックになりそうだが、適切な評価なのか? アイテム数よりは内容の多様性を見る必要が無いか。
4 電子文書中の TrueType グリフ照合とその高速化手法の検討 ○鈴木俊哉(広島大)
動機:どの字が何(どのフォント)で印刷されているのか分からない
フェイス名(MS 明朝とか)で指定可能とされていたが、字形の詳細に拘泥する領域でも十分か?
ケース1:字形を変えたいが名前は変えたくない(バージョン番号だけ変わる)
ケース2:コールバックの問題で「JIS規格票字形に無いはずの字形が出てくる」。
*どこに外字フォントが潜んでいるかわからない
フォント単位での特定 -> グリフ単位での特定
ラスタイメージで比較
-> 利用許諾・著作権上実用性無し
True Type 描画命令のハッシュ値比較
そのままだとラスタライズと比較して30倍遅延->高速化
5 文法構造を付加したテキストに対する情報検索方法の検討 ○鈴木 晋(愛知工大)
簡単な文法構造(ここでは「形式文」と呼ぶ)を人手で付加して検索に利用するという試み
含意関係認識に近い例で、質問応答するタイプっぽい。
Semantic Web、オントロジー、WOLに似てる気もするがそれを手動で作るっぽい。
naltoma: 人手で質問に付与するぐらいなら良さそうだが、説明文へも人手が必要だとコスト高過ぎないか?
A: RDFでの表現には限界があるという立場。
naltoma: (だけど人手でそれを解消してるようにも思えない)
naltoma: 形式マッチングだけでは不十分で、何を問うているかについての解釈も必要では?
naltoma: 単純キーワードマッチングとどのぐらい結果の質が異なる?
A: キーワードマッチングでは主語述語の関係を無視してしまう。
naltoma: (その例に限って言えば係り受け解析まで加味したら良さそう)
6 類似文字列検索における LCP 配列を用いた索引の提案 ○木村光樹(東大),高須淳宏,安達 淳(国立情報学研)
可変長N-gram
VGRAMはパラメータ変更する度に木構造を作り直す必要がある
-> 木構造じゃなくて配列利用。要件:時間削減&パラメータ変更に頑健。
Q: 表記揺れにもいろんなパターンがありそうだが、今回の対象ではスペルミス(字面の並び)のみ?
A: その通り。
Q: 今後の課題で日本語のように文字種が多いものについて評価したいとのことだが、その前に「アルファベットでも単語が長くなるドイツ語とか」で評価するのが手っ取り早そうだが、何か予想できることはあるか。
A: 今回は検索速度は比較してないが、スペイン語で実験した例と比較するとあまり英語と変わった特有の話はそんなになかった。辞書化した場合にはあまり差が無い。逆にDNAのような文字種が少ない場合では文字列が長くなってしまうため、そういうケースでどうなるかは今後検証してみたい。
7 Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents ○ Yimin Chu(東大),高須淳宏,安達 淳(国立情報学研)
PDFでの論理構造抽出が目的。
コンテンツ抽出->グルーピング->論理構造抽出
キャラクタ、フォント、線、ブロックなど。
従来法:フォントサイズ、ラインスペースに基づいてグルーピング。
今回はアライメントとインデントを導入。
naltoma: 論理構造の延長戦にストーリー展開とか意味構造があるのかな。
Q: 先行研究とターゲットの違いがある?(アカデミックペーパーかコンシューマ雑誌か)
A: アカデミックペーパーは一例。データセットに含まれている。
C: 自分が考えてるパラグラフ抽出が有利と考えるのは良いが、ユーザはそこに嬉しさを感じるのか。パラグラフが重要なのかそうでもないのか。
学生セッション[2V 会場](3 月 6 日(火)15:00 ~ 17:30) 情報抽出・質問応答 座長 佐々木 裕(豊田工業大)
1 自然言語テキストにおける注視関数を用いた注視語抽出方式の提案 ○齋木貴博,鈴木 寿(中大)
深層格の自動抽出に繋げるための話らしい。
(遅れて聞けず)
2 ソーシャルネットワークを情報源としたコミュニティ辞書自動生成の 研究 ○宮本和幸,菱山玲子(早大)
専門用語(特定コミュニティで使用される用語)を自動生成したい。
機械翻訳での誤訳を防ぐ
naltoma: 「Twitterがコミュニティ性の高い語彙が現れやすい」という仮定は良いとして、それをどう構築する?コミュニティとは?
naltoma: 未知語と一緒だが、ツイートされない専門用語は?(漏れはどのぐらいある?)
Q: コミュニティの語彙を収集するという意味ではブログの方が詳しい気もするが、Twitterでは崩れ過ぎているということはないか。
A: 今回はブログは対象として考えていなかった。Twitterは正しい日本語じゃない、崩れているものも確かにあった。
3 WEB 上の相談事例とトラブルデータベースを利用した重要事案発見のための要因解析 ○八十岡智章,岡田将吾,新田克己(東工大),高橋久尚(統計数理研),本村陽一(産総研),田中智貴(国民生活センター)
早期警戒指標となる重要な事例・事案を自動発見したい。
類義語辞書:アラジンの負担・トラブル表現リスト(例:風邪->病)
naltoma: 分類精度というよりも発見見逃しがないか、再現率が高いかが重要では?
naltoma: どんな事例で失敗している?
Q: パラメータ調整の自動化について考えていることはないか?
A: 現在は手動調整。自動化は検討中。
Q: 自動化ができそうか? 手動でやらざるを得ない問題設定なのか?
A: 動的に変化するものなのである一定期間毎に更新する必要があると思う。
4 検索サイトを用いた自由記述式アンケートの特徴語抽出法 ○星野詞文,吉村宏樹,岡 誠,森 博彦(東京都市大)
検索ヒット件数から名詞の繋がり具合を判断できないケースへの対処
文法的視点から「連接係数」を導入
naltoma: 企業アンケート特有の話がある?
5 カテゴリ階層を考慮した固有表現抽出 ○東山翔平,関 和広,Mathieu Blondel,上原邦昭(神戸大)
従来の固有表現抽出では「分類」だが、階層関係が考慮されていない。
重みwを学習する際に階層関係(ラベル間の損失関数)を導入
階層間関係における「差」を損失関数として設定
dca: deepest common ancestor -> 一般用語の方がby座長
naltoma: 適切な損失関数はどのように定義する?
naltoma: 項目毎の損失関数総和で良いのか?
C: 固有表現をテストするデータセットがあるのでそこで比べると比較しやすくなる。
6 中学校レベルの数学の文章題を解くシステム ○箕村大輔(電機大)
形態素解析->ホーン節(原子論理式)変換->常識追加->連立方程式作成->制約プログラミングで解く
ホーン節変換:Syntax Directed Translation Schema(SDTS)
‘支払う(太郎,1050)’: 支払ったなら何かを買ったはず->買うという式を追加。
naltoma: 問題の意図や答えるべき事象はどのように汲み取れるのか?
naltoma: 常識的知識をどのように用意するのか?(どのぐらい必要になりそうか?)
A: どのぐらいの数が必要そうかは未検討。
naltoma: 文章題のタイプはどのようなものがあるか?
A: 有理数の演算で求めるタイプ。例えば図形は考慮していない。
Q: 例えば中1レベルの問題集解かすと何パーセントぐらい解けるのか?
A: 変換規則が不十分なのでまだ何とも言えない。
7 発言内容の関連性を用いた質問答弁の構造化に基づく議事録閲覧支援システム ○小泉元範,新谷虎松,大囿忠親,白松 俊(名工大)
解決したい対象:全体内容把握の困難さ、話題発見困難さ
議事録の「質疑応答構造」を利用
質疑応答分割->セグメント分割->セグメント間関連度->構造化
naltoma: 質問者、答弁者のデータセットから汎用的な「質問パターン」「答弁パターン」が見えてくるか?
naltoma: 複数の議事録での時系列推移を見れるか?(参照リンク生成?)
naltoma: 事前に議題が明示されてるケースが多い気がするが、比較してどのような差異が見られたか?
A: 要約に相当するような文が冒頭にでてくるが、実際に発言としてでてきた言葉を見出しとして使うことができる。
Q: 質問者が答弁者に対して「はい/いいえ」と言わせるようなやりとりでは類似度があまり出て来ないと思うが、こういうケースではどうなるか?
A: 質問/答弁が長いケースを想定している。
Q: 長短に応じて前後の発言にくっ付けるというような判定も面白そう。
8 複合名詞の構造パターンを考慮したスコアリング手法の改良 ○吉野 徹,福本淳一(立命館大)
QAシステム「*は誰?」
例:完全試合を達成したヤンキースの選手は誰?
回答候補をスコアリング:キーワード毎にスコア付与
問題点:複合名詞の形態素が離れて現れた場合、スコアリングを行うのに相応しくないキーワードがある。
「名詞-助詞-名詞 名詞-名詞」の構造パターンについて人手分析
NTCIR-3のQACタスク+Google検索上位10記事
RRで評価
naltoma: 汎用的なパターンとして抽出できるのか?
Q: 構文解析機を使った事があるか?
A: 精度8割程度と低かったので、自前で作ろうと思った。
Q: パターンというより文の構造で見た方が良いと思う。
9 Twitter からのアルバム自動生成システムのための関連度計算手法について ○糸川翔太,白松 俊,大囿忠親,新谷虎松(名工大)
コメント付きアルバム(複数ユーザ)を自動生成。
入力:Twitterユーザ名+イベント期間
「写真ツイートその他ツイート」の類似度算出し、関連ツイートをコメントとして採用
類似度=投稿時間の近さ+位置の近さ+テキスト類似度+リプライ
10 質問応答システムにおける再検索を用いた回答候補の抽出手法 ○油井宣明,福本淳一(立命館大)
QAシステムの問題点:質問文中に情報が不足している場合回答を一意に決定できない
先行研究:ユーザ対話を用いる。
提案:質問文の曖昧性を解消するために回答を拡張することで絞り込みしやすくする
Q: どのぐらい性能が良くなる?
A: 性能が良くなるというよりは抽出できる回答を増やしたい。
Q: 間違った回答に結びつくこともありそうだが。
A: 間違ったものを省くというよりは、提示すること自体を増やしたい。ユーザが何を求めているかが分からないので、再建策で明らかにすることが目標。
Q: 適合フィードバックのような形で処理するのも一つの手法だと思う。