FIT2011, day1
FIT2011の初日が始まりました。
FITに参加し始めたのは去年からなんですが、年々全国大会並に参加者が増えてるんじゃなかろうか。一日の構成は「午前中に1セッション、午後に特別講演と1セッション。これらと並行してイベント企画や展示会」となっているのですが、この1セッションあたりの並列度が21個もあって、全体の1割見るのすら無理になってたりします。予稿自体は見れるから良いというのもあるけど、ちょっと広く薄くなり過ぎてないかなー。狭く濃くやるなら研究会に行けよという話ではあるので、そっちにも参加する予定ではありますが。
という訳で、あくまでの私自身が参加したプログラムに関する備忘録になります。
午前中はイベント企画機械学習の最前線。
参加してから気づいたんですが、IBISML(情報論的学習理論と機械学習)研究会(Web URL、Twitter: @ibisml)主催のチュートリアル企画でした。興味があってMLにはROM参加しているのですが、どおりで興味のあるテーマが揃ってるチュートリアルな訳だ。プログラムにもそう書いててくれれば迷わなかったのにー。
午後は特別講演と下地くん発表の一般物体認識セッションに参加してきました。
青字は質疑応答時のやりとりですが、ニュアンス自体が大分違ってる可能性が高いです。
食事の様子はこちら。
目次
・イベント企画: やさしく分かる機械学習の最前線 ~データから意味を読み取る~
・隠れた構造をあぶりだす ~トピックモデルを用いた潜在意味解析~
・こんなに使える最適化手法
・自然画像の事前確率分布を応用した画質改善
・特別講演: 粘菌の行動知 ~原始生命システムの自律分散情報処理~
イベント企画: やさしく分かる機械学習の最前線 ~データから意味を読み取る~
隠れた構造をあぶりだす ~トピックモデルを用いた潜在意味解析~
文書 同じ文書で現れやすい単語のまとまり(トピック) 各文書は少数のトピックを持つ Q: ツイート等の短文ではそもそも表出するシンボル数が少ないが、問題にならないか? 画像 同時に共起しやすい(写り込みやすい)対象トピックモデル=隠れた構造(トピック)を抽出するための確率モデル 教師無し学習 拡張容易 トピックに相関を持たせたり、トピック間に階層構造持たせたり、 観測データを増やしたり、etc. 文書に限らず様々な離散データに対して有効性が示されてきている
入力: bag-of-words 単語集合表現、順序無し シンプルな多項分布:全文書の単語が同一分布であると仮定 混合多項分布:複数の単語分布があると仮定(1文書は1トピックを選択) トピックモデル:1文書の単語が複数の分布から生成されると仮定(単語毎にトピックを選択) 複数トピックを持つ文書も表現可能
PLSAとLDA:代表的トピックモデル 基本的には一緒で、ディリクレ事前分布を仮定しているのがLDA。ベイズ的。 ディリクレ事前分布:多項分布のパラメータを生成するための分布 性能的にはトピック数等実験設定にもよるが 多項分布<PLSA<混合多項分布<LDA グラフィカルモデル 変数間の依存関係を図示したもの
学習(Collapsed Gibbs サンプリング) θとφを積分消去:共役事前分布を用いているため可能 入力:文書データ、トピック数K、ハイパーパラメータα・β 未知変数:
応用例 時間変化するトピックの解析 多重スケール時間(複数の時間スケール)でのトピック発展を解析するためのモデル 内容と関連するタグの抽出 ソーシャルアノテーション:SBM、写真共有等 内容と関連しないタグ:後で読む/これは凄い(主観評価)/etc. ファッション推薦 写真からコーディネートを学習、上衣から下衣を推薦 上衣と下衣に分けて特徴量学習
質疑応答 Q: スーパーパラメータの推定の仕方は? A: MCMC+サンプリングからの導出など、事例データからの推定方法がいくつかある。Q: ファッション推薦の評価の仕方は? A: 雑誌写真で片方を隠した状態で評価。実際にユーザによる評価もすべきだと思う。
Q: 内容に関連しないタグを抽出すると何に使える? A: その後の学習等の際に除外することで精度向上等につながる。
こんなに使える最適化手法
計算機性能向上+アルゴリズム進歩に伴い現実問題に対しても有効な手段に PCクラスタ利用した例だとスウェーデン全都市TSPでも最適解求まる段階に。最適化分野の概要 意思決定・問題解決のための一手段 定式化+最適解の計算+最適解の検証・分析 制約条件を満たす解の中で目的関数を最小(最大)にする解を求める問題 線形計画問題 数千〜数万パラメータぐらいでも一般的なPCでサクサク解ける MIPもほぼ現実的なサイズで解けるようになってきたので、 研究対象としては非線形なMIP等がトレンドになりつつある
計算困難な組み合わせ最適化問題 易しい問題 多項式時間で最適解を求めるアルゴリズムが存在する問題 割り当て問題→ハンガリー法、最短経路問題→ダイクストラ法等 難しい問題 厳密な最適解を求めるのに最悪の場合に入力サイズに対して指数時間を要すると 臣事されている問題、NP困難問題
現実問題に対するアプローチ 厳密解法と近似解法 汎用解法と専用解法 既存ソルバーの利用 かっちりとハマる専用ソルバーが見つかる事は稀 汎用解法のソルバーもいろいろ揃ってきている 自分でソルバーを開発 試行錯誤に十分な開発期間があれば良い選択肢。 ランダムウォークの方が効率良いことも。
事例 集合住宅における電気自動車の充電計画 事業所における電気自動車の充放電計画 時空間ネットワーク(time-expanded network) 統計的機械翻訳におけるフレーズ対応 基盤検査におけるプローブ経路計画 多角形詰め込み問題
Q: 整数計画問題→線形計画問題にして解き、後で丸めてしまうのが楽という話が あったが、0,1しかでてこないケースでも良いのか。 A: 問題によりけりだが、0,1のケースでは丸めるのは難しい。 Q: 0,1変数しかない場合で解き難いケースでは、メタヒューリスティックに行くのが良い? A: 0,1変数でも分枝限定法なりで解けるケースもある。 必ずしもメタヒューリスティックが良いという訳ではない。
自然画像の事前確率分布を応用した画質改善
事前確率分布 函館といえばイカ刺しが美味しいはず! 尤度分布 ひょっとしたら今朝のホテルのイカ刺しは 東京で食べるイカ刺しと同じ味かもしれない?! 事後確率分布 しかし「事前確率分布」の思い込みの分だけ、 実際にイカ刺しは美味しく感じます!事後確率最大化法(MAP法)を応用した画像処理紹介 超解像処理、ぶれ回復処理、デノイジング処理、、 逆問題として定式化:不良設定問題 y=Ax+n, E(x)=||y-Ax||^2_2 事前確率分布を設定することで一つに特定しやすくなる
事前確率分布(思い込み)が大事 観測する前から分かっている情報(思い込み)を数学的に表現し学習するのが難しい 適応的事前確率分布モデル 事前確率の更新(繰り返し処理)
事前確率分布を使わない方法:ML法 ML法:最尤法(尤度最大化) MAP法:事後確率最大化(事前確率分布を利用)
Q: 事前情報のアップデートはずっと続けるとoverfittingになるのか? A: はい。 Q: どうしたらよいか? A: 経験的にやることになるが、PSNRを示せる真値のあるデータで やってみるのも一つの方法。Q: 事前分布を構成する部分についてMAP推定しているが、 ベイズ使うなら1点を求めるのではなく分布を求めるのが自然に思う。 A: その通りで、最良推定に近くなっていると思う。分布を求めることも可能。
Q: 画質改善の場合、見栄えを良くする場合と真値にすること自体が目的の場合とで 分けて考えるべき? A: その通りで、犯罪捜査のようなケースだと真値が重要。見栄えの場合は、 方法論としてTV対応等の場合にリアルタイム処理といったことが必要。 Q: 提案手法のスケーラビリティは? A: 100枚でも1万枚でも問題内容な方法を提案。ただし位置合わせ的な前処理は必要。
特別講演: 粘菌の行動知 ~原始生命システムの自律分散情報処理~
迷路等の幾何学的なパズルを解くという事実 時間的な記憶とでも呼べるような、周期的な環境変動を学習して思い出す 個性や逡巡と思える行動粘菌紹介 ビデオ:Like Nothing On Earth 多核の単細胞生物:脈打ちながら周囲を覆い尽くす様 複数の個体がぶつかり合うと1つの変形体に合体 切っても1個体として生存 Q: 1個体として繋がり合おうとする欲求or利点がある?
パズル解き 迷路中にバラバラに配置→合体 入り口出口にオートミール設置→最短路へ 生理的要請 体が繋がっていて、十分情報交換できること なるべく早く大量の養分を吸収すること
流れに応じて太さが変わる管(管の適応性) 管の流れが多いと管は太くなり、少ないと細くなるという性質を持つ 管を水道管ネットワークとしてモデル化 管:長さと太さで記述 えさ場:流入、流出(流量は固定) さらに適応ダイナミクス(強化と減衰のバランス)を導入 保存量を介した相互作用 個々の管が独立してバランスを保持するように固定流量に沿うように行動 →シミュレーションで再現
場所の違い:危険度最小化問題(部分的障害光照射エリアを避ける) 光が当たっている箇所への縮小項のパラメータを拡張 数学的に同等な問題:光の屈折(砂浜+海)
どこが情報処理? ビット列でない「情報」表現 物理運動が処理過程 管同士で流れを取り合うと自ずと最短経路が求まる 脳のような司令官が無くても賢く振る舞う仕組み? 集団運動の自己組織化/自律分散処理
カーナビへの応用 概して悪い経路から消滅、時々刻々かわる渋滞に適応 現行のダイクストラ法にない利点
沢山のえさ場を繋ぐ 3つの異なる性質を「ほどほど」に満足 全長の長さが短くなるように(コスト) 耐故障性:断線に対する連結補償性 *何でこれが必要? 連絡距離:効率 社会インフラのネットワークが持つべき性質 鉄道網の粘菌式デザイン モデルではパラメータで耐故障性/コストをチューニング
時間記憶? 刺激タイミングの予測+思い出し モデルの仮定 粘菌自体が何らかのリズム現象(拡大/縮小/動くためのリズム)がある そのリズムは多重である リズム(振動子)は位相のみ、振幅は無視 同じリズムを持つ振動子が多数 全振動子の平均的挙動(秩序パラメータ)が移動速度 モデルの振る舞い 自然刺激に近い振動数を持つ振動子群がクラスタ群(スーパークラスタ)を形成 すぐには壊れず、予測的な動作に繋がる 暫く刺激が無いと壊れる(重心を見るとないように見える)
迷い・個性? 弱い毒キニーネに遭遇→立ち止まる→通過/分裂/引き返し Q: 弱い毒で分裂が起こるなら、耐故障性との兼ね合いは? Q: 個性?どの個体でもいずれかを選択しうる可能性があり、 スーパークラスタとの兼ね合いで決定される? 暑い先端部が消えたり現れたり モデルのアウトライン ゾル、ゲルの2相流体 ゲルの張力発生によるゾル流 早い線形弾性と遅い塑性 2つのサドルが近接した解起動が振り分ける 類似のモデル 導火線のアナロジー 粘菌の先端らしさの活動性(燃え尽きたマッチの再生を考慮)
書籍:粘菌 その驚くべき知性
Q: 数学系の研究者らとの共同研究になっているケースが増えているようだが、 生命とは何かということについて何か思うところはあるか。 A: 手短に述べることはできない。ある米国研究者の議論によると「何でも 定義できると思ってはいけない」ぐらいの定義しか出て来ないらしい。 どれもまずは物理現象だと思おう。それでいろんなことが、生き物の 生き物らしいことも理解できるんじゃないかと思ったのが15年ぐらい前。 根は生物学者だが、ロジックは物理や数学。思いもよらないロジックを うまく使えばいろんな生命現象が説明できるのかなという期待を持っている。Q: 情報処理という分野はコンピュータの性能を良くしてどんどん早くする という方向に進む。スローライフではないが、それに則した情報処理技術を 探すべきかなという観点もある。粘菌はどんな情報処理要素でどう処理して いるのか。そのモデルをうまく使えれば良さそうに思うが、何かないか。 生物にならえという感覚について。 A: そういうことを考えていきたいと本当に思う。早くなることは良いことだと 思うが、解き方。力づくでやるのではなく、批判している訳ではないが、 何か違う解き方が沢山ある。人間の顔認識でもそうだし、何か機会に やらせようとすると難しい所があるが、人間は簡単にやっているというような ケースがある。例えば野球でのフライの取り方。弾道計算とかはしてない。 明示的にいうことができないことについて一つずつ掘り起こしていったら 面白いのではないか。
一般セッション: 一般物体認識
- A Semi-Supervised MarginBoost Algorithm Applicable for Dissimilarity-Based Classifications
- マルチモーダル入力に対応した重み付き多数決による識別器
- PatchMatchを用いた類似パッチの高速KNN探索法
- SIFT特徴量の共起を用いた一般物体認識手法に関する基礎研究
ここまで立ち見でメモできず
Q: 一般物体認識で領域を分けるという話があったが、 PASCALデータセットからの領域切り出しはどうやっているのか。 A: データセット内にマスクが含まれており、これを利用した。Q: モデル1と2の違いが良く分からなかったが、 SVMで学習するための特徴ベクトルの作り方が異なるのか。 A: SVMでの学習は行わず、ヒストグラムでの尤度判定、 多数決程度の処理で判別させている。尤度なりを学習させていくことは検討中。
Q: 領域毎にSVM、もしくはヒストグラム化したのをSVMでそのまま学習 させるとどうなのか。 A: 試行実験では認識率が低かった。学習時に領域切り出しはできても、 認識時には画像全体で特徴量を構築する必要があり、 そのミスマッチが大きく影響していると考えられる。
問題意識:SIFT+BoFでは位置情報や関係性が失われてしまう デプス情報を用いた3次元グラフ構造表現 D-SIFT→グラフ化→グラフ編集距離→識別器 濃淡画像をモノクロ変換してSIFT 3次元グラフ構造表現 近接グラフ、疑似階層グラフ グラフ編集距離 Q: 各編集コストはどう調整する? Q: どのぐらい時間がかかるのか? 例えばリアルタイム処理可能か? A: 普通のPCで半日程度。Q: 最初の発表におけるDissimilarityを使うということに近いように思うが。 A: リンゴと桃、オレンジのように形上はほぼ違いが無い。 それを区別できるように導入してみた。
Q: 距離が合っていれば形状が正しいと考えて良いか。 A: 必ずしも正しいとは限らない。
Q: グラフ編集距離の求め方は? A: D-SIFT上で一定値を設けて近さを求めている。エッジの計算に時間がかかる。
Q: D-SIFTはダメだという話なのか、物体の形状依存なのか。 SIFT等と組み合わせて使うと良いとかありそうか。 A: SIFTでは取れる(区別できる)ケースでも、D-SIFTではうまくいかない ケースがある。デプス情報からSIFTを取ること自体がおかしい可能性がある。
問題意識:より頑健な(様々な状況に対応できるorより制約の少ない)移動物体抽出の必要性 セグメンテーションの精度向上 TMRによる動物体領域抽出 複雑な物体:アフィン変換→Feature-Cut Q: 従来失敗していた原因と、それが成功したのは何が効いていたのか。 A: Feature-CutによるQ: 動画の背景が白く、セグメンテーションとしては簡単にやれそうな実験。 従来法は、何故グラフカットに失敗しているのか。背景全体をシードにするのではなく、 forground の外側をシードにするとやれるのでは。 A: 考えてはいるが、形状にも依存してしまうため難しそう。
Q: 今回の実験ではアフィン変換でも良さそうだが、ダメなのか。 またより複雑な、実際アフィン変換では難しそうなケースではどうなるのか。 A: 試していないので分からないが、Feature-Cutが高精度なのでこちらを中心に進めている。
問題意識:似た特徴を持つ画像検索では特徴の選び方が重要 局所的色分布特徴量 RGB、色相関など 色相関距離 符号化 Q: 単純な2値化の仕方としては面白いが、実際には統一ルールでは難しくない? 照合エンジン(ベイジアンネットワーク) Q: ナイーブベイズと差が出てないのはどう解釈したら良い? Q: 部分画像集合の特徴値分布を使う考え方はうまくいきそうに思えるが、どうやっているのか。 A: (再説明)Q: 特徴量の分布状態を評価していることに相当する? A: 計算した統計量から特徴値を2値に評価しているだけ。
Q: 問題設定について。全く同じ写真を探したいのか、同じ被写体を探したいのか、同じ種類を探したいのか。 A: 同じ種類のものを探したい。
問題意識:物体とその物体の詳細を認識させたい。e.g., TV+電源ボタン 詳細部分:人間が直接操作を行う部分 Q: 位置情報を用いて補正する場合の基準となる減点は、特定の一点を使っている? A: 既に特定された部分で、かつ、一番近い場所を捜査して推測する。Q: 例えばキーボードの場合は多くのキーがある。文字認識が間違ってるやつもあるが、それもそのまま採用してしまう? 正しく認識できたものだけ利用するとかなり精度向上すると思うが。 A: 今は採用してしまうが、検討中。
Q: 無料OCRでGoogleのものがあるが、今回商用を採用したのは精度の問題? A: Googleは比較はしていないが、比較した中で精度の高かった最新版を採用した。
Q: OCRソフトは想定している利用状況にも依存しそうだが。キーボードやるならキーボードの辞書使うとか。 A: 文書対象なので文書だと前後の文字から補正することも可能だが、今回はそういった補正が効かない。そういった方向も考えてみたい。
Q: リモコンの場合でもキー番号が独立して配置されているが、文字と文字の間に意味があるケースだとOCRの精度が高くなるのか。 A: 高くなると考えている。
Q: 文字を基にマッチングを行っていて、SIFT特徴量等で使われている幾何的な情報が使われていないが、そういった情報を使ってみても補正しやすくなるのでは。 A: 試作中だがまだ検討段階。