研究領域 | 予測と意思決定の脳内計算機構の解明による人間理解と応用 |
研究課題/領域番号 |
24120527
|
研究種目 |
新学術領域研究(研究領域提案型)
|
配分区分 | 補助金 |
審査区分 |
複合領域
|
研究機関 | 沖縄科学技術大学院大学 |
研究代表者 |
内部 英治 沖縄科学技術大学院大学, 神経計算ユニット, 研究員 (20426571)
|
研究期間 (年度) |
2012-04-01 – 2014-03-31
|
研究課題ステータス |
完了 (2013年度)
|
配分額 *注記 |
8,450千円 (直接経費: 6,500千円、間接経費: 1,950千円)
2013年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2012年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
|
キーワード | 強化学習 / モデルフリー / モデルベース / 線形可解マルコフ決定過程 / 最適制御 |
研究概要 |
最適制御問題は非線形偏微分方程式であるベルマン方程式を解く問題に帰着され、解として得られる価値関数から最適制御則が構築される。この非線形性を緩和する方法が線形可解ベルマン方程式による強化学習法である。前年度の実ロボット実験の結果より、この手法はモデル化誤差の影響が通常の強化学習法よりも大きいことが分かった。この問題に対処するために二つの解決法を提案した。 一つはゲーム理論に基づくミニマックス法を導入することにより、環境のモデル化誤差にロバストな線形化強化学習法を提案した。基本的なアルゴリズムはDvijotham and Todorov 2011によって提案されていたものの、環境のモデル化誤差が制御則に及ぼす影響は調査されていなかったため、本研究ではその点を膨大なシミュレーションによって調査した。その結果、関数近似誤差のある連続問題とそうでない離散問題で、ロバストネスを調節するパラメータの設計指針が異なることを示した。離散問題に適用した結果をAROBシンポジウムで発表し、連続問題に適用した結果をJournal of Artificial Life and Roboticsに投稿予定である。 もう一つは価値関数を指数変換した適合度関数を環境との相互作用から直接推定するモデルフリー強化学習法を手案した。これはfinite horizonの問題として定式化されるが、導出されたアルゴリズムはコスト関数を指数変換したものの逆数が状態依存の割引率に相当することを示した。この手法を線形可解マルコフ決定過程における制御器の重ね合わせ法と組み合わせ、実ロボットを用いた実証実験を行った。この結果はNeuro2013の招待講演での講演および国際会議ICRA2014に採択され、ICRA2014については6月に口頭発表予定である。
|
現在までの達成度 (区分) |
理由
25年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
25年度が最終年度であるため、記入しない。
|