情報処理学会 第75回全国大会3日目

Share on:

m_20130308130140513962a484ace m_201303081927345139bd1700279

情報処理学会全国大会3日目(最終日)が終了しました。これで全日程が終了で、明日には沖縄に戻ります。

NAL研メンバはM2な名嘉くんがラストを飾り、合計5名の学生がどうにか発表を終えました。名嘉くん自身の発表では予備審査では治っていた「そして」連発が出てしまったぐらいで、内容的にはありがたいコメント貰えて良かったんじゃないかと。

午前中は2つのセッションを跨いで参加。一番期待していた発表はちょっと残念な感じだったので置いといて、予想以上に面白かったのは「人間関係を推定するフレームワークに基づくネットいじめ防止ツール」。明示的なテキストなりのアクションをしない女の子のいじめでは「無視する、コメントしない」という行動がネット上でも見られるという話。発表者らによる言葉を使うと「友達リストみたいな登録関係(コネクションネットワーク)は固定したままだが、いじめの対象はローテーションしていく。ネット上でのアクションを定期的に収集、グラフ化することで「予兆っぽいもの」が見えてくる。これをアクティビティネットワークと呼んでいて、固定的なネットワークと動的なネットワークを区別している」らしい。

最後の招待講演は脳トレな川島先生による「スマート・エイジング」。高齢化社会をとっくに過ぎて、今後は日本人人口総数も減っていく中高齢者の割合が上り調子という超高齢化社会に突入している中、認知機能トレーニングにより経年劣化を防ぐだけではなく向上も可能という話。

晩ご飯はかきやNO海鮮丼ぶりや ととびすとにて海鮮丼&生ガキ! その他細かい写真はtwilogにて。


学生セッション[5M会場]数理モデル化と問題解決(1) 座長 山本 雅人(北大)


5M-1時間制限付き優勢領域図の提案とサッカーの守備の分析への応用, ○岩浅真秀人,大塚 寛(愛媛大)

入力:試合中の選手とボールの毎秒5フレームの座標データ
 ディフェンスに関する情報を画像として抽出したい
 優勢領域図:守備範囲、ボール支配者の推測
  問題点
   守備範囲全体を支配できない
   スペースは選手の支配領域(選手の到達時間が1秒前後)が分からないと求められない
    -> 時間制限付き優勢領域図へ拡張
   隣接関係は妥当でない


naltoma: 「ディフェンスに関する情報」とは? 何が分かると嬉しい?
naltoma: 選手の位置と速度をパラメータとするようだが、
 これで生成された支配領域はどのぐらい正しい?
naltoma: 時間情報を活用できない?


Q: 時間を決めているとの事だが、ボールからの距離も考慮すると変わってきそうだが、
 どうか。
A: まだ考慮していないが、必要だと思う。スペースにも関係してくる。
Q: 選手の向きも考慮していないのは何故?
A: 選手は速度を持って移動している。2点座標から移動方向を推測して
 優勢領域を求めているため入り組んだ結果が得られる。
 実際には向きとか分からない情報が多いが、推測して利用している。

Q: 攻め側の勢力図との関係というのは見ていない?
A: 守備を中心として考えているため、見ていない。
Q: スペースがあってもそこにオフェンスがいなければ、
 あえて空けていることもありえるといった有用な情報となりそうだが。
A: 有用ではあるが、まだ見ていない。

Q: ボール保持している選手がどこにいて、周りにいる守備側の勢力図は見ている?
A: ここではまだ見ていない。

Q: 本当の試合データから作成すると思うが、数秒後の試合結果が推定通りに
 なっているかの判定とか。領域図の適切さの評価はどうか。


5M-2共起クラスタマイニング ー数値観測量の事象系列に対する頻出パターン抽出ー, ○稲場大樹,福井健一,沼尾正行(阪大)

事象間の因果関係・相互作用:共起パターン(ある期間内でペアで頻出)
頻出パターン抽出
 Apriori-like アルゴリズム:記号データ
 2段階法:数値観測量(区間分割、クラスタリング->記号化)
  問題点:クラスタリングによる不適切なクラスタ
 時間軸上の共起度を考慮してクラスタ生成
共起クラスタマイニング
 共起パターン要件:共起性、頻出性、類似性


naltoma: 共起パターン要件3の類似性には、そもそも何を持って類似しているかはどうする?
naltoma: 時系列データをどの粒度で区切るべきかはどう判断する?


Q: デンドログラムでクラスタリングして階層的にやっているが、
 上の階層は頻度が高くなるのは当然。クラスタの中の類似性は考慮されているが、
 階層に関する尺度は考慮している?
A: 上のクラスタほど共起頻度は高いが、類似クラスタとして生成されるサイズが
 大きすぎるため、類似性でカバーしている。

Q: 特徴空間に落とすための粒度や区間といったものにかなり影響受ける。
 その辺のパラメータはどうするか、特徴に落とすべきかということについての知見があれば。
A: 試行錯誤。パラメータに落とし過ぎても少なすぎても駄目。
 バスケットの長さについては今回の2実験では同じ決め方をしている。


5M-3Mixing Matrixに基づく階層付きカテゴリカルデータの可視化法, ○伏見卓恭,斉藤和巳,武藤伸明,池田哲夫,大久保誠也(静岡県大)

オブジェクト間の相互関係->全体構造や法則性を把握したい
現実のデータでは相互関係に偏りがある
先行:球面可視化法(SE-PI-W法)
 大きな格差がある場合に重みが適切に得られない
 -> 階層性のあるオブジェクト集合を前提とし、重み付け法を改善


naltoma: 多数の関係を落とし込む以上、ある関係に着目した場合の俯瞰図といった、
 何らかの制約を前提とした方が「使いやすい/みやすい」可視化にならないか?


Q: 球面というのは3次元?2次元?
A: 2次元でやってるが、3次元可も可能。

Q: ベキ分布に従うのが問題ということについては、log取るだけでは駄目?
A: logとか他にもいくつか試してみたが、可視化法への適用という観点では
 格差の是正にはなるが、値が小さなものも差を見たいという点では不十分だった。
Q: 最初の重み段階でlogとってからZスコアしては?
A: Zスコアは必要なエッセンス。logに対応する所はハイパボリックタンジェント
 をかけているところだと認識している。

Q: 人工データでも実データそうだが、第一階層第二階層では有効?
A: 実データでは有効なデータ。


5M-4年代順を考慮に入れた工業製品の進化系統図の提案, ○太田章悟,武藤敦子,犬塚信博(名工大)

工業製品の影響関係を可視化、系統を知る事で企業研究や分析に役立てたい
系統樹推定法
 異なる年代の製品間の系統関係を明らかにし、どのように系統が受け継がれていったかを分析


Q: 世代に注目しているように見えたが、年代という言葉と世代、系統などいろいろ言葉があったが。
A: 世代と年代は同じ。
Q: 違う系列でまとまっているが、他社のゲームを真似るとかは発見できないか?
A: できると考えている。

Q: 人気影響度を評価しているが、それが高いと何故系統樹の評価が高い?
A: 人気製品だとどこの企業も真似をしたがる。影響を大きく与えているということは、
 再現度が高いと考えられる。
Q: ある閾値を越えると似ているかどうかという線が引かれるが、
 影響は受けているけれどもオリジナリティのため押さえ込んでいるとか。
A: あくまでも影響を与えたかどうかに着目している。
 シリーズだから線が引かれるというよりは、具体的に真似したか否かに着目。

Q: 属性の選び方や妥当性については?
A: 現時点では偏りがあるため、精査が必要。
Q: ユーザの立場にたった見方?
A: その通り。


5M-5レビューサイトにおけるユーザ間の動的類似度分析, ○山岸祐己,斉藤和巳,池田哲夫(静岡県大)


ユーザのレビュー行動をモデル化する
 レビューは常にユーザの独断的評価か?
 ユーザ間の影響(他レビュー)を考慮する必要がある
 影響を受けるユーザは常に決まっているか?
  ユーザ間の類似度を動的に分析する
   トップユーザを基準に類似度曲線のクラスタリング


naltoma: @cosme は影響を受けやすいユーザの例?
naltoma: トップユーザとの動的レビュー類似度?
naltoma:


Q: クラスタリングにk-medianつかった理由は? K=15は見やすさで選んだとの事だが、
 他のケースはどういう結果だった?
A: 代表ベクトルとの比較の見やすさを考慮して選択した。
 K=15については、小さすぎるとどうでもよいクラスタが頻出したため、調整した結果。

Q: 他のユーザに影響されるとのことだが、時系列で最初に評価が決められると
 その後は影響を受けてしまうのではないか。重鎮が高い点数付けたからというよりは、
 多くのユーザが3点付けているとかが影響強くないか。
 ユーザ属性よりもコメントに影響されるのでは。
A: レビューのテキストについては全く考慮していない。
 現時点では考慮していないが、ユーザの平均点は見るべきだと思う。

Q: 300レビューしたユーザに限定しているとのことだが、
 300というのはかなり使っているように見える。
A: 一時的というよりは都合の良いときにちょくちょく使ってはいるという解釈が
 近いかもしれない。

Q: 分類しているが、実際にそういう影響を受けているかの評価は何か考えている?
 実際にトップユーザから影響を受けているかどうかとか。
 トップユーザだけで良いのかどうかとか。
A: トップユーザに限定せず、他ユーザも検討する必要がある。
 どういうユーザから影響受けやすいかを調べていく予定。
Q: どういうユーザから影響受けたかはしりようがない?
A: その通り。


一般セッション[5F会場]インタラクション(1) 座長 増井 俊之(慶大)


5F-6作業対象物へのアノテーション自動設定機能を持った遠隔作業支援システムの検討, ○大多和均,堀川真平,佐野良樹,長沼晶子,古澤昌也,湯瀬裕昭,渡邉貴之(静岡県大)

既存システムでは「指導者がアノテーションを設定」(負担大)
 アノテーションを手動で設定する必要の無い方法を提案
  グリッド線表示機能:時間短縮には結びつかなかった
  アノテーション自動生成機能


naltoma: 機械学習させるのと現場で手動提示するのとどちらが使いやすい(ロバスト)か?


Q: アノテーションに対するナンバリングが正しかったとのことだが、
 どう付与している?
A: 物体検出リスト登録時にユニークナンバーを付与している。
 いらないものは削除しているため、ナンバーは固定。
Q: 物体が移動したのをどう同定している?
A: 連続検出回数をカウントして考慮。
Q: カメラとターゲットの相対位置が分かっていれば座標の意味が分かるが。
 ちょっとのズレぐらいなら分かるが、大きくズレると座標の意味が無いのでは?

Q: 学習時には端子毎に登録する必要がある?
A: その通り。

Q: そもそもどういう仕事に使うことを想定している?具体的に。
A: お店とかで、この棚には何をいれるとかの細かい作業。
 向き不向きがあると思うが、具体的にやりたいことはまだ考えていない。
 機械操作、テレビ会議システムの操作とか。
Q: 沢山の人を相手をする必要はないのでは?
A: 指導者が一人ずつやらなければならないので、その手間が省ける。

Q: 指導者が一人で何度もやってると、指導者の指導の仕方がうまくなるのでは?
A: そういうことも考えられるが、指導者人数は少ない状況を想定。


5F-7人間関係を推定するフレームワークに基づくネットいじめ防止ツールの実装, ○中村 海,本庄 勝,橋本真幸(KDDI研),三島浩路(中部大),黒川雅幸(福岡教育大),吉田俊和(名大),長谷川亨(KDDI研)

ネットいじめ:テキスト検出アプローチでは見つけられない(無視などの間接的な行動)
発生や予兆を検出して教師等に提示するためのフレームワークを提案
 ソーシャルグラフを可視化、構造に基づいて検出
  グラフの変化=異常検知?
 定期的に収集(トラブル起きるとサイトを簡単に消してしまう)
 収集したサイトの管理者同定
 個人属性推定
 リンク構造から同組織推定


naltoma: いたちごっこだと思うが、可視化されるとそこから逃れるような手段が考案される。
 例えば検出可能な範囲では「らしく」行動された時にどう対処していくか?
naltoma: コンタクトネットワークが固定で被害者はローテーションするというケースでは、
 それが日常的な行動であるために何らかのアクションをしてしまうことで油を注ぐようなことに繋がらないか。
 単純にいじめの予兆を検出することにはあまり意味はなくて、
 大事に至るケースを漏れなく検出する事の方が重要ではないか?


Q: ソーシャルグラフを見て潜在的ないじめの発見にどう繋がる?
A: 女の子の仲間集団は、無視や仲間はずれにする行為がある。
 被害者はローテーションする。ずっと被害者になる訳ではない。
 人間関係の根本的な所、お友達リストは変えずに維持する。
 しかし、記事に対してはコメント書き合う/記事やコメント無視するとかの変化を見ている。
 コンタクトネットワークとアクティビティネットワークの構造変化を見るのがポイント。

Q: 線で繋がったのはコンタクトネットワーク?
A: その通り。
Q: アクティビティネットワークは?
A: 今回は重畳した形で出力している。

Q: こういう人が増えていくとどうなる? こういう人はプロフやり続ける?
A: Lineに移りつつある。
 グループチャットがあり、そのグループから外す。
 ツールの機能に依存する。
Q: いじめの起こりやすい機能というのがある?
A: そう考えている。
 Twitter では起こりにくく、そもそも規模が大きいので無視の効果が薄いとか。


スマート・エイジング ~脳機能解析学が拓く新しい超高齢社会~

「アンチ・エイジング」という年をとる事に対するネガティブな言葉やイメージを払拭できないかということで提唱している「スマート・エイジング」を実現するために取り組んできた/いる/これからの展望等についての話。スマート・エイジングは世阿弥が述べてた「時分の花、まことの花」における後者のイメージで、具体的には認知に関する「通常だと経年劣化していく各種認知機構(主に全当然や??)の劣化度合いを緩やかにできないか、平坦に維持できないか、より向上させることはできないか」という立場で様々な取り組みをしているとのこと。

メタ認知における作動記憶に注目していて、これを向上させる訓練をするとオマケ的に鍛えていないそれ以外の機能についても向上することができるらしい。ただし、慣れきったレベルでやってもオマケ効果はでず、ギリギリのラインでやることが必要だという点と、遺伝子多形調べる限りでは良く知られているVal/Valだと鍛えた効果がでやすく、そうじゃないと効果はあるが相対的に低いとか遺伝的要因もあることは分かっているらしい。(日本人が全体的に均一的なのはこれが要因なのかもとかいう雑談も)


学生セッション[6Q会場]文書分類 座長 持橋 大地(統計数理研)


6Q-1Geometric Algebra を用いた英語文書分類手法の日本語文書への適用に関する問題についての基礎的検討, ○鈴木直人,古橋 武,吉川大弘(名大)

潜在的意味解析(LSA)の問題点:語順が考慮されていない
Geometric Algebraによる語順を考慮したベクトル化
 語毎に「その後に続く語数ベクトル」を作成し、GA処理
  日本語文書に適用した際の問題点を調べる
   0ベクトルで構成された部分の回転行列をできず、適切な類似度が求められない


naltoma: 1単語でLSAするのではなく、2単語LSAとか、係り受けLSAとかでは不十分?
naltoma: 今回の問題点はコーパスが小さいための結果では?


Q: 6つの文を選んだ根拠、何らかの問題になるという仮定があると思うが、それは何か。
A: 選んだ根拠は、1,2では出現単語では全く同じで類似度が1になるかどうかの確認。
 4,5では逆順で表れるケースで類似度が低くなるか。
 6のように全く無関係の単語の際に類似度が低くなるか。
Q: 回転行列が求められないというのは日本語特有?
A: 英語での実験はこれから。

Q: 1,2の文章と3,4の文章は意味が全く違うように思うが、類似度が0.99と出るのは良いのか?
 会場に行くのと家にいくのがほぼ同じで良い?
A: 目的地の単語は全く異なるが、同じような語順で出てきたという意味で似ている。

Q: 語順の行列作る際に、1個前の単語だけを見る? bi-gram?
A: 今回は直前の単語だけを見ている。
Q: indexing時に2単語組みと比べてどういうトレードオフがある?
A: ペア作成すると行列がでかくなりすぎ、より回転行列が定義できないケースが増えると思う。
 今回の手法の方がスパース性が低い。

Q: 実数基底虚数基底があったが、実際にはどう分けている?
A: 今回は実数基底のみを用いた。
Q: どう使えば良いかという指針みたいなものはある?
A: 分からない。


6Q-2OCR文書検索を想定した重み付きトピックモデルの検討, ○田村一樹,吉川大弘,古橋 武(名大),鈴木 誠(ブラザー工業)


企業:e-文書法に基づく、大量に蓄積された紙文書の電子化
個人:自炊、クラウドデータ
フォルダ管理/タグ管理:どちらも時間&労力
 目的に応じて文書を探し出したい->LDA
 問題点:OCR誤認識を含む文書にトピックモデル適用するとトピック推定精度が低下
  単語の認識信頼度、LDA重み付け


naltoma: OCR誤認識はOCRソフト毎の「癖」がないか?
naltoma: 認識信頼度が低い単語を除外するだけでは不十分?
naltoma: OCR誤認識を含まない文書に対してはどう?(例えば誤変換とかタイポとか)


Q: 誤認識を直すところには適用できない?
A: その段階での修正ができるとベストではある。
Q: 単語レベルでのn-gramするとかなり直せないか?

Q: 全く崩さない綺麗なLDAと、混ぜて試した場合とでどのぐらい差が出るのか。
A: エラーが増えるに従って認識率が下がっていった。


6Q-3疑似ラベルを用いた潜在ディリクレ配分法の一考察, ○鈴木聡子,小林一郎(お茶の水女子大)

Labeled LDA: 予め付与されているラベルに対して精度良好
 問題点:ラベルがついていない文書の方が多い
  全ての文書に対して疑似ラベル付与してLabeled LDA


naltoma: トピックモデルにおける「トピック」と「疑似ラベル」はどういう関係?
naltoma: 単語共起と文書類似度から疑似ラベルを生成するという行為により、
 様々な方向への重み調整をしていることに繋がると思うが、
 特徴ベクトルを重み調整して通常のLDAでやることとどちらが良いのか?


Q: 付けたラベルの妥当性についてはどうだった?
A: ラベルがもとの同じカテゴリに付けられていたかどうかは確認していない。
Q: 恐らく labeled LDA の精度が良いのは、labelが正しいから。
A: 元のデータとの比較は重要だが、それとはっきり一致した方が良いかは別問題だと考えている。

Q: 疑似ラベルの使い方のグラフィカルモデルについて。
 疑似ラベルがついていなかったら、重みが0になる?
A: 付いてないラベルの所は0になる。
Q: それは影響が強すぎるのでは?
 θの事前分布にするのではなく、その後、λの右に持っていくだけでも精度が上がりそう。


6Q-4潜在情報を考慮したグラフに基づく半教師あり学習によるテキスト分類, ○江里口瑛子,小林一郎(お茶の水女子大)

グラフ構造に基づく半教師あり学習(GBSSL法)
 問題点:どのようなグラフを用意するか、どのように教師データを用意するかに依存
  グラフ構成について最適パラメータ設定
  教師データを類似度グラフにより選出


naltoma: 教師データの適切さとして TopicRank スコアが高い方が良いというのは何故?


Q: 実際に生成されたグラフは見てみた?
A: まだ可視化ツールができていないが、今後見ていく予定。

Q: 今回の手法は計算量が増えてしまう事は無いか?
 単にグラフを使う方法よりも計算コストが増えすぎるとか、
 調整するパラメータが多すぎるとか。
A: パラメータについては先行研究と同程度。
 教師データを作るのはそれなりに時間がかかる。
Q: 組み合わせになると膨大になると思うが、問題にならない?
A: 苦労した所ではあるが、傾向性を見つけることで解決していきたい。


6Q-5PageRankアルゴリズムを用いた重要文抽出による潜在的意味に基づく文書分類, ○小倉由佳里,小林一郎(お茶の水女子大)

未分類文書をカテゴリ毎に自動で分類したい
潜在的意味による文書分類の精度を高める文書分類手法の提案
 単語共起関係抽出、グラフ化、重要度算出、重要文抽出、重要文のみで元文書を表現
 3文毎の単語共起関係


naltoma: 文抽出型の自動要約した文による文書分類する場合と比べてどうか?
naltoma: 要約と重要文とは意味が異なる?
naltoma: PageRankの高さと「クラスタリングしやすい文」とは同一だろうか?


Q: 単語に対して重要語を求めて、重要な文を抽出しているが、
 文書を特徴付けている重要単語の出現回数でLDAするのとどちらが良いのか。
 わざわざ重要文を抽出する必要があるのか。
A: 潜在情報で分類するために必要なデータで構成し直すことがしたかった。

Q: 3文にした理由は?
A: 取りあえず考慮できる範囲として設定したぐらいの意味。

Q: 重要文、重要単語抽出は面白いともうが、
 ある単語ごっそり除いた時にマズいというのが分かるとGibbs-samplingで嬉しい。


6Q-6制約知識を用いたCRPへの一考察, ○立川華代,小林一郎(お茶の水女子大)

LDAでは予めトピック数を指定する必要があるが、通常は不明。
HDP-LDA:トピック数を推定
 Chinese Restaurant Process + Dirichlet Process
 制約付きCRP


naltoma: CRPに制約をつけた表現が文書分類に効果を与えると考えた理由は?


Q: 制約の数が有限だったが、制約の数がどんどん増えないか?
A: こちらから与えるので、固執の数自体は増えない。テーブル数のみ増える。
Q: テーブル=トピックだと思うが、同じテーブルに座って欲しい?
 同じ個室に入って欲しい?
A: 同じ個室には入るけど、異なるテーブルに座る可能性があるので、
 個室をトピックと考える方が良いかもしれない。

Q: 実際にはどういう制約を与えたい?
A: 単語群を1制約として与えたい。
Q: トピックの事前確率で入れた事例は多分これまでにないと思うが、
 そこは大丈夫?
A: 恐らく。


6Q-7学習指導要領に基づいた設問自動分類タスクにおける語の集約による有効性評価, ○名嘉真之介,當間愛晃,赤嶺有平,山田孝治,遠藤聡志(琉球大)


naltoma: 「そして」が多い。
naltoma: 時間上省いたと思うけど、どのように「語の集約」をしたのかが分からない。
naltoma: 集約結果での「誤分類事例の分析結果と考察」は、
 説明がスムーズじゃなかったことに加えて図の意味が良く分からず、
 伝えたい事が良く分からなかった。


Q: TFIDF使ったようだが、グラフや質問形式による言葉と内容に関する言葉があると思うが、
 今回は同じように扱ったのか、除外等特別扱いしているのか。
 分野には寄与しない単語はどうしているのか。
A: グラフ等の単語が出た場合には設問外情報を利用している。
Q: 分野に寄与していない単語を除外してはどうか。
A: 除外したいが、難しい。

Q: 最後の提案は自動化できる?
A: 今の所手動でやっているため、自動化したい。
Q: 分類においてはどうでもいい単語とか、どう展開して欲しいということができると嬉しいと思うが、
 トピックモデルで表面上少しはできるが、具体的なトピックについてやっている訳ではない。
 そこがポイントかなと感じた。