研究課題/領域番号 |
14J10453
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
ソフトコンピューティング
|
研究機関 | 東京電機大学 |
研究代表者 |
甲野 佑 東京電機大学, 大学院先端科学技術研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2014-04-25 – 2016-03-31
|
研究課題ステータス |
完了 (2015年度)
|
配分額 *注記 |
1,700千円 (直接経費: 1,700千円)
2015年度: 800千円 (直接経費: 800千円)
2014年度: 900千円 (直接経費: 900千円)
|
キーワード | 満足化 / 強化学習 / 意思決定 / 速さと正確さのトレードオフ / 対称性推論 |
研究実績の概要 |
本研究課題は人間のフレキシブルな意思決定に習うことで,学習のために膨大なサンプリング数(試行時間)を必要とする強化学習の問題に対処することを目的としていた.このような問題は試行時間が短く済む『速さ』と結果の『正確さ』の間にあるトレードオフに起因する.本研究では具体的に人間の因果関係の強さの推定と高い相関を持つ価値関数(LS)を用いることで,意思決定のトレードオフに対処しようとした. 前年度の研究により, LS 価値関数は人間の満足化方策と関連が強いために,正確さには固執しないフレキシブルさを実現しているということがわかり,この観点から LS 価値関数を拡張した(LS-VR,LSX).満足化は基準値という目的値を設定することによって,正確さへの固執を緩めることでトレードオフを回避している.また前述の LS の拡張価値関数では基準値を適切に設定することで,正確さへの固執,すなわち最適化を非常に素早くできることがわかった.今年度の成果の一つは以上の結果を英文ジャーナルとして投稿したことにある.また満足化の利点として非定常環境に対する対処が最適化よりも優れており,非定常環境に対処する既存のメタバンディットアルゴリズムより良い成績を有することを示した. 前年度までの LS 価値関数は即時的で確率的な報酬の生起/不生起のみを扱う多本腕バンディット問題のみを扱っていた.本年度は長期的な試行錯誤を必要とする報酬や複雑な環境を想定したより一般的な強化学習へのLS価値関数の拡張を行った(RLLS 価値関数).具体的には複雑な物理ダイナミクスを持つ運動制御課題(大車輪運動)に RLLS 価値関数を用いて行い,他のアルゴリズムが非常に狭い範囲でのパラメータでしか正しい運動制御を学習できないのに対して, RLLS 価値関数は広いパラメータの範囲で,かつ素早く学習できる事がわかった.
|
現在までの達成度 (段落) |
27年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
27年度が最終年度であるため、記入しない。
|