2010 Fiscal Year Annual Research Report
あいまいで変動する環境におけるモジュール型意思決定モデルの研究
Project/Area Number |
21300113
|
Research Institution | Kyoto University |
Principal Investigator |
石井 信 京都大学, 情報学研究科, 教授 (90294280)
|
Co-Investigator(Kenkyū-buntansha) |
中村 泰 大阪大学, 工学研究科, 助教 (70403334)
前田 新一 京都大学, 情報学研究科, 助教 (20379530)
|
Keywords | 強化学習 / モジュールアーキテクチャ / 計算論的神経科学 / ロボット / 非侵襲脳計測 |
Research Abstract |
あいまいで変動する環境において、効率よく意思決定を行うモジュール型意思決定モデルとそのための学習アルゴリズムを、特に強化学習とベイズ推定に着目しながら開発する。ロボット実験、ヒト行動・認知実験などと統合した融合研究を実施している。 モジュール型意思決定アルゴリズムの開発と評価:状況によって、探索と搾取を切り替えるマルチモジュール型システム同定強化学習法を策定し、そのパラメータをヒト被験者の行動実験から決めるようにした(Adomi, et al., 2010)。複数の基底関数から線形表現される価値関数のオンライン学習において、基底関数を動的に配置するモジュール型強化学習アルゴリズムを導出して、従来法よりも効率が良いことを示した(Mori and Ishii, to appear)。また、昨年までに導出した、価値関数ベースの強化学習法のセミパラメトリック統計に基づく一般系について(Ueno, et al., in press)、さらに関数近似にバイアスがある場合について理論的究明を行った(Ueno, et al., submitted)。 意思決定モデルの脳内実装可能性の評価:不観測変数が多次元となる環境における推論過程に関して、行動実験および核磁気共鳴図(MRI)を用いた非侵襲脳活動計測実験をヒト被験者に課すことにより、脳内神経基盤を探っている。探索と搾取を切り替えるモデルは被験者行動を良く説明できることが分かり(Adomi, et al., 2010)、これに基づき、探索・搾取切り替えに関わる脳内情報処理基盤を論じた(Shikauchi, et al., 2010)。また、被験者の脳内推論状況をMRI信号と行動データから統計モデルを用いてデコードする研究を継続実施中である。 多関節ロボットの制御実験:ヒトの上肢を模した多関節ロボットについて、過去に蓄積したデータからの評価に基づく制御法を開発し、その成果を国際会議に投稿中である。
|
Research Products
(7 results)