2008 Fiscal Year Annual Research Report
複雑な環境における脳の意思決定モデルとロボット制御への応用
Project/Area Number |
18300101
|
Research Institution | Kyoto University |
Principal Investigator |
石井 信 Kyoto University, 情報学研究科, 教授 (90294280)
|
Co-Investigator(Kenkyū-buntansha) |
柴田 智広 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (40359873)
|
Keywords | 強化学習 / 意思決定 / 計算論的認知心理学 / 多自由度ロボット / 部分観測 / 前頭前野 / モジュール構造 |
Research Abstract |
線形確率システムとして表現できないような複雑な環境における最適意思決定過程を模擬する機械学習モデルを、強化学習に注目して構築し、工学応用、特に多自由度ロボットに対する自律制御を行った。高度で階層的な推論を必要とするタスクを題材として、複雑な問題解決に関わる脳内モデルを構築し、非侵襲脳活動計測器を用いた認知科学実験により検証した。 1.強化学習のアルゴリズム開発 方策勾配法ベースの強化学習法に注目しながら新しい強化学習アルゴリズムを開発した。予測器と制御器の対が複数あるようなモジュール型アーキテクチャに適用することで、変動する環境での適応的制御を可能とした(Hiei,et al.,2008)。方策内部にダイナミクスを保持した部分観測強化学習法のアルゴリズムを開発し、メモリを保持するものよりも効率が良いことを見出した(Taniguchi, et al., 2008)。また、強化学習のための価値関数の学習において、統計的に最適となる手法について理論的な結果を得た(Ueno, et al.,2008)。 2.階層型部分観測、および複数モダリティがある環境での意思決定の神経基盤 複数の入力モダリティがあるような、あるいは階層性があるような部分観測環境における最適意思決定過程と推論過程の神経基盤を調べるために、fMRIを用いた認知科学実験を行い、モデルを用いた脳画像解析を行った。特に、アクティブサンプリングによるマルチモーダル環境の同定に着目して行動実験およびfMRI実験を行い、解析を進めた。行動実験データの解析から、ヒトがマルチモーダル環境において、計算資源を少なくしつつ環境の曖昧性を除去する情報処理を行っていることが示されたので、現在、計算モデルを用いた脳画像解析を行っている。この結果については、今年度に業績化する予定である。 3.多自由度ロボットの強化学習による制御 2足歩行において物理学的に相補的である2つのモジュール制御器、すなわち、ゼロモーメントポイント(ZMP)に基づく軌道追従制御と準受動歩行強化学習制御、とのハイブリッド型制御法を2足歩行シミュレータに実装した。後者は、関節角度を観測変数とした準受動歩行を実現し、また、エネルギー消費量を抑えつつ歩行距離を伸ばすよう、強化学習による環境適応を可能としている。また、実ロボットの制御実験に向けて、これまでに開発したロボットの足裏に圧力計測用のセンサシートを装着し、制御器実装を進めた。
|
Research Products
(9 results)