研究課題/領域番号 |
25730135
|
研究機関 | 大阪大学 |
研究代表者 |
植野 剛 大阪大学, 産業科学研究所, 研究員 (90615824)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 強化学習 / データ同化 / 確率最適制御 |
研究実績の概要 |
平成26年度は,データ同化による大規模な意思決定問題の解法を構築するため,次の3つの研究課題に取り組んだ. 1.データ同化と相性のよい強化学習法の開発: 前年度までの研究を継続,発展させ,本年度は確率推論に基づく強化学習の新しい枠組み, カルバック・ライブラー方策探索(KLPS)を開発した.KLPSは,機械学習における重要な評価尺度である,カルバック・ライブラー距離を利用し,強化学習を確率推論問題として再定式化し,グラフィカルモデルの推論法を用いて最適な意思決定則を見つける.よって,KLPSによる最適意思決定則の探索は確率推論で閉じているため,他の強化学習法と異なり,データ同化を自然な形で強化学習に取り込むことができる.また,KLPSは優れた理論的な性質を持ち,大域解への収束が保証されることを証明した. 2.データ同化法による計算機シミュレータの学習: 計算機シミュレーションの学習を行なうため,データ同化法の実装を行った.データ同化法はさまざまな方法があるが,本研究ではガウス過程によるデータ同化法を実装した.この方法をベンチマーク問題,既知のダイナミクスのロボットシミュレータへパラメータを未知として適用し,その性能を検証した.その結果,精度については問題ないが,シミュレータの速度低下が確認されたため,スパース性を活用した高速化法を開発し, その有効性を検証した. 3.データ同化強化学習法の実装,その応用: 1.2.で実装したデータ同化により学習したシミュレーションと確率推論に基づく強化学習を組合せ,シミュレータ学習とその確率推論によるロボット制御を行った.現在,その詳細な評価を行っている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
現在,ほぼ当初の計画どおり,データ同化強化学習の数理の確立,データ同化法の実装,そしてデータ同化強化学習の擬似データによる性能検証まで進んでいるため,概ね順調に進展しているといえる.
|
今後の研究の推進方策 |
現在,当初の計画どおり順調に進展しているため,基本的に当初の計画どおり研究を推進する. しかし,シミュレーションデータと実際に得られたデータを融合し,ロバストな強化学習法の構築は現在,当初の思惑通りに機能していない.この問題に対処するため,非常に簡単なベンチマーク問題において提案法が破綻する要因を精査し,その対処法を考えるつもりである.また,この問題の解消が困難であると判断された場合は,シミュレーションデータと実データの融合を諦め,シミュレーション学習の精度を向上させ,強化学習のロバスト性を高める方向にシフトする.
|
次年度使用額が生じた理由 |
年度末に投稿準備中の論文の英文添削費として繰越しを行った.
|
次年度使用額の使用計画 |
現在,投稿準備中の論文の英文添削費用として使用する計画である.
|