[複雑研全体ゼミ補足記事] 7/23, 樹木生成モデル、強化学習

Share on:

今日の全体ゼミ
 ・潮平: [1] 樹木生成モデル
 ・慶留間: [2] 強化学習
での関連話を補足します。

[1] Simulating tree growth based on internal and environmental factors, 2005, http://dl.acm.org/citation.cfm?id=1101406&dl=ACM&coll=DL&CFID=129906701&CFTOKEN=72882969
[2] 宮崎和光.,村田元,小林重信: “Profit Sharingに基づく強化学習の理論と応用”, 人工知能学会誌 Vol.14 No.5 pp.800-807 (1999), http://svrrd2.niad.ac.jp/faculty/teru/xol_s.html


>樹木生成モデル

 どういう木を生成/再現したいのかという話や、そもそも最終結果だけで良いのか途中経過が大切なのかなど、研究目的自体を明確にしようという話がありました。
 その例として、「ユーザの望む結果」を生成したいのであれば、その「望んでいるもの」を何とかして低コストでシステムに入力できると嬉しそうだという例を話しましたが、より具体的な研究例としては [3,4] のようにインタラクティブに操作していくタイプの事例があるようです。特に [3] では、「パラメータが多く、局所的な形状に関与するパラメータから大局的なデータを推測しながら設定するのは困難」というような主張をしているらしい。
 別の例としては、 [5] のようにリアルタイムアニメーションを前提とした3次元樹木モデルの構築と計算量削減を行っている例があるらしい。
 目的と目標次第で評価方法が変わってくるので、自分が目指している場所を明確にしていこう。

[3] インタラクティブな生長シミュレーションによる3次元樹木モデルの生成, 日本バーチャルリアリティ学会論文誌, 2006, http://ci.nii.ac.jp/naid/110008728953
[4] 実写映像に基づいた3次元樹木モデルの生成, 電子情報通信学会論文誌, 1999, http://ci.nii.ac.jp/naid/110003183636
[5] 効率的かつリアルな3次元樹木モデルのアニメーションの検討, 電子情報通信学会技術研究報告, 2003, http://ci.nii.ac.jp/naid/110003272748


>強化学習

 部分観測に制限された状態(POMDP)ではマルコフ決定過程(MDP)が成立せず、次状態が「観測できる現在の状態+実行した行動」だけでは一意に定まらず、MDPを前提としたシンプルな方法だけではうまく学習が進まない。その一例としてループ問題を示し、一つの打開策として Profit Sharing が紹介されていました。
 部分観測が引き起こす「現実には異なる状態/状況を同一視してしまう」のは、何故起きてしまうのだろう? 例では2次元格子空間で表現された7×7~15×15のマップ内が用意され、例えばロボットが観測できる範囲が周囲1マスのように制限されると見分けがつかない状況が生じる、という話でしたが、人間だとそうは「なりにくい」はず。例えば、シンプルな3Dダンジョンゲームだと同じように「見た目には同じ」という状況は多々ありますが、歩数覚えるなりマッピングするなりして迷わないための工夫をすることで解決しようとするでしょう。
 つまり、単純に「観測できる現在の状態+実行した行動」で次状態を考えようとするのではなく、「観測できる現在の状態」を少し拡張して「どうやって現在の状態に辿り着いたか」といった履歴を活用して「異なる状況」として認識したり、環境自体にマーキングして観測結果を操作するなどして、POMDP環境下でも効率良く学習しやすくできると嬉しそうです。
 この「観測情報から状態空間を自動で構築していく」という方向での事例としては、[6,7] のように行動獲得やプランニングといったキーワードで研究がすすめられているようです。

[6] ロボットの行動獲得のための能動学習, 情報処理学会誌 (1997), http://www.er.ams.eng.osaka-u.ac.jp/Paper/1997/Asada97e.pdf
[7] 複数の学習器の階層的構築による行動獲得, 日本ロボット学会誌, 2000, http://www.er.ams.eng.osaka-u.ac.jp/Paper/2000/Takahashi00d.pdf