研究領域 | 予測と意思決定の脳内計算機構の解明による人間理解と応用 |
研究課題/領域番号 |
26120727
|
研究種目 |
新学術領域研究(研究領域提案型)
|
配分区分 | 補助金 |
審査区分 |
複合領域
|
研究機関 | 株式会社国際電気通信基礎技術研究所 (2015) 沖縄科学技術大学院大学 (2014) |
研究代表者 |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
研究期間 (年度) |
2014-04-01 – 2016-03-31
|
研究課題ステータス |
完了 (2015年度)
|
配分額 *注記 |
9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円)
2015年度: 4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
2014年度: 4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
|
キーワード | 強化学習 / 逆強化学習 / EMアルゴリズム / 線形可解マルコフ決定過程 / 密度比推定法 / 部分観測環境 / 深層学習 |
研究実績の概要 |
このプロジェクトでは線形可解マルコフ決定過程(LMDP)に基づいた強化学習および逆強化学習について研究した。一つはベルマン方程式が線形化されることを利用した、解の重ね合わせ原理に基づく制御則の合成を実ロボット実験によって検証した。その結果、実世界では重ね合わせは厳密には成立せず、重ね合わせによって得られた解を初期値として追加学習する手法が有効であることを示した。また逆強化学習法として、LMDPでは学習前後の状態遷移確率の比の対数が報酬と価値関数によって表現できることを示し、それに基づいた逆強化学習法を提案した。一つは密度比推定法と正則化付き最小二乗法によるもので、これは特許として出願した(PCT/JP2015/004001)。また最小二乗法を必要としないロジスティック回帰に基づく方法も特許として出願した。これらの手法は従来法OptV, MaxEnt-IRL, RelEnt-IRLよりも少ない計算コスト、少ないサンプル数で報酬関数を効率よく推定することができた。これらの成果は神経回路学会誌の解説記事としてまとめた。
また、これまで決定論的方策を学習できる勾配探査法であるPolicy Gradients with Parameter based Exploration (PGPE)とEMアルゴリズムの導入により学習率の調整の問題を回避したReward Weighted Regressionをもとに新しい学習率を必要としない方策探査法を提案し、従来法のPGPEやFinite Differenceよりも少ないサンプルで、かつ素早く制御則が獲得できることをシミュレーションで示した。この結果はArtificial Life and Roboticsに掲載された。またベースラインの導入による推定量の改善や実ロボットの実験を含めた結果を2016年6月をめどに英文誌に投稿する予定である。
|
現在までの達成度 (段落) |
27年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
27年度が最終年度であるため、記入しない。
|