• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Research-status Report

データ同化強化学習

Research Project

Project/Area Number 25730135
Research InstitutionOsaka University

Principal Investigator

植野 剛  大阪大学, 産業科学研究所, 研究員 (90615824)

Project Period (FY) 2013-04-01 – 2016-03-31
Keywords強化学習 / データ同化 / 確率最適制御
Outline of Annual Research Achievements

平成26年度は,データ同化による大規模な意思決定問題の解法を構築するため,次の3つの研究課題に取り組んだ.
1.データ同化と相性のよい強化学習法の開発:
前年度までの研究を継続,発展させ,本年度は確率推論に基づく強化学習の新しい枠組み, カルバック・ライブラー方策探索(KLPS)を開発した.KLPSは,機械学習における重要な評価尺度である,カルバック・ライブラー距離を利用し,強化学習を確率推論問題として再定式化し,グラフィカルモデルの推論法を用いて最適な意思決定則を見つける.よって,KLPSによる最適意思決定則の探索は確率推論で閉じているため,他の強化学習法と異なり,データ同化を自然な形で強化学習に取り込むことができる.また,KLPSは優れた理論的な性質を持ち,大域解への収束が保証されることを証明した.
2.データ同化法による計算機シミュレータの学習: 計算機シミュレーションの学習を行なうため,データ同化法の実装を行った.データ同化法はさまざまな方法があるが,本研究ではガウス過程によるデータ同化法を実装した.この方法をベンチマーク問題,既知のダイナミクスのロボットシミュレータへパラメータを未知として適用し,その性能を検証した.その結果,精度については問題ないが,シミュレータの速度低下が確認されたため,スパース性を活用した高速化法を開発し, その有効性を検証した.
3.データ同化強化学習法の実装,その応用: 1.2.で実装したデータ同化により学習したシミュレーションと確率推論に基づく強化学習を組合せ,シミュレータ学習とその確率推論によるロボット制御を行った.現在,その詳細な評価を行っている.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

現在,ほぼ当初の計画どおり,データ同化強化学習の数理の確立,データ同化法の実装,そしてデータ同化強化学習の擬似データによる性能検証まで進んでいるため,概ね順調に進展しているといえる.

Strategy for Future Research Activity

現在,当初の計画どおり順調に進展しているため,基本的に当初の計画どおり研究を推進する. しかし,シミュレーションデータと実際に得られたデータを融合し,ロバストな強化学習法の構築は現在,当初の思惑通りに機能していない.この問題に対処するため,非常に簡単なベンチマーク問題において提案法が破綻する要因を精査し,その対処法を考えるつもりである.また,この問題の解消が困難であると判断された場合は,シミュレーションデータと実データの融合を諦め,シミュレーション学習の精度を向上させ,強化学習のロバスト性を高める方向にシフトする.

Causes of Carryover

年度末に投稿準備中の論文の英文添削費として繰越しを行った.

Expenditure Plan for Carryover Budget

現在,投稿準備中の論文の英文添削費用として使用する計画である.

  • Research Products

    (3 results)

All 2014

All Journal Article (1 results) Presentation (2 results)

  • [Journal Article] 極大クリーク列挙技術のビジネス応用と ソフトウェアツール2014

    • Author(s)
      植野剛
    • Journal Title

      電子情報通信学会誌,

      Volume: 92 Pages: 1103-1106

  • [Presentation] 確率推論による方策探索法2014

    • Author(s)
      植野 剛
    • Organizer
      日本ロボット学会 学術講演会
    • Place of Presentation
      福岡県北九州市
    • Year and Date
      2014-09-04 – 2014-09-06
  • [Presentation] e射影に基づく方策探索法2014

    • Author(s)
      植野 剛
    • Organizer
      人工知能学会全国大会
    • Place of Presentation
      愛媛県松山市
    • Year and Date
      2014-05-12 – 2014-05-15

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi