[複雑研全体ゼミ補足記事] 7/8, シミュレーション系(強化学習、協調行動)

Share on:

今日は大学院入試(推薦)とオープンキャンパスの事務処理。オープンキャンパスはバイト代支払うための手続きがあるので、期日内に提出お願いします。あと、各部屋の清掃&綺麗に保つのも勿論ヨロシク!(普段からね!)

午後は(私のせいで先週休みになったので)久しぶりに全体ゼミ2巡目の続きです。ちょっと「独立した論文紹介」に近くなっちゃってるのが勿体無い。

以下は複雑研全体ゼミを終えての補足記事です。


シミュレーション系 (稲福政樹, 山田義貴, 清水隆寛, 新垣隆伍)

>強化学習、逆強化学習

全体の流れとしては「強化学習を用いたシミュレーション[1,2]」を主題に、どのような背景で問題設計・シミュレーション検証しているかという点から紹介していくというよう話だったかと思います。(他の聴講者が)強化学習自体についての理解できる程度の基礎説明が殆どなかったこともあり、「何かしら学習させようとしてるor学習を用いたシミュレーションなのね」ぐらいの気持ちでの討論に終始してしまった(≒独立した論文紹介に近い)のは勿体無かったかも。

一方で、グループ名にもしている「シミュレーション」を中心に据えるのだとすると、[3]みたいにモデルやツール、方法論あたりからストーリーを練るのも一つの手だったかもしれません。

[1] 強化学習エージェントによる協調行動とコミュニケーションの創発, 情報処理学会論文誌. 数理モデル化と応用, 2007
[2] 逆強化学習による複数均衡化での均衡収束の実現, JSAI2012
[3] シミュレーション, 情報工学科講義

以下ではもう一つのキーワード「協調行動の創発」に因んだシミュレーションについて紹介してみます。

[4]は、一過性に生じる強い感情(=情動)の概念を導入したいくつかのモデルを示しつつ、「自身に対する不快を避ける利他的な判断を、恐怖情動の機能としてエージェントの意思決定に組み込」んだシミュレーションを通して「情動と社会的行動の関係性」を検証するという話らしい。
[5]は、軍隊アリの行動規範解明を目的としてシミュレーション上で協調行動再現をしながら理解を深めるというスタンスの論文らしい。
[6]は、自己位置推定のために創発現象を利用するという話で、ロボカップ等で必要となるターゲット包囲行動を題材にシミュレーションしているらしい。

[4] 強化学習と情動学習に基づく意思決定法:利己的な判断による協調行動の創発, 知能と情報, 2012
[5] 軍隊アリの生態シミュレーションを用いた協調行動の創発, 東京大学大学院, 2010
[6] 創発特性を利用した自己位置推定-ターゲット包囲行動の場合, 知能と情報, 2010