研究概要 |
線形確率システムとして表現できないような複雑な環境における最適意思決定過程を模擬する機械学習モデルを、強化学習に注目して構築し、工学応用、特に多自由度ロボットに対して変動する環境下での自律制御を行った。高度で階層的な推論を必要とするタスクを題材として、複雑な問題解決に関わる階層的な脳内モデルを構築し、非侵襲脳活動計測器を用いた認知科学実験により検証した。 1.強化学習のアルゴリズム開発 方策勾配法ベースの方策オフ型強化学習法に注目しながら新しい強化学習アルゴリズムを開発した。サンプリングに基づく部分観測マルコフ決定過程の解法を開発し、4人で行うマルチエージェントゲームであるHeartsの効率よい自動学習に成功した(Fujita and Ishii, in press)。 2.階層的部分観測環境における神経基盤 部分観測課題における最適意思決定過程の神経基盤を調べるために、fMRIを用いた認知科学実験を行い、前部前頭前野の関わりを明らかにした(Yoshida and Ishii,2006)。また、階層性ある意思決定課題においては、前頭前野の異なる領域が関わることが分かった。 3.多自由度ロボットの強化学習法による制御 方策勾配方策オフ型強化学習法を、2足準受動歩行ロボット実機に実装し、通常の強化学習法よりも早く安定して学習が可能であることが分かった(Ueno et al.,2006)。中枢パターン生成器に対する強化学習法をヘビ型ロボットに適用し、アクチュエータの故障などシステムの動的変化に追随できることを示した(Makino et al.,2007)。
|