2013 Fiscal Year Research-status Report

データ同化強化学習

Research Project

Project/Area Number	25730135
Research Category	Grant-in-Aid for Young Scientists (B)
Research Institution	Osaka University
Principal Investigator	植野剛大阪大学, 産業科学研究所, 招へい研究員 (90615824)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	強化学習 / 最適制御 / データ同化 / 統計学習
Research Abstract	本年度はデータ同化強化学習を実現するため，次の２つの課題に取り組んだ． 1. データ同化強化学習の数理基盤の構築データ同化は潜在変数を持つ確率過程のフィルタリング，スムージングを計算する必要がある．したがって，データ同化と強化学習を組み合わせるためには，これらの確率演算と相性がよい強化学習法を考える必要がある．私は，従来法と異なり，強化学習を統計学習問題に変換し，グラフィカルモデルの近似推論法により最適な方策を導出する強化学習法を開発した．この開発法は確率推論を規範とした方法であるため，当然ながら確率演算と親和性が高く，データ同化を直線的に適用することが可能である．さらに，提案法は理論的にも素晴らしい性質を有しており，近似推論が正確な場合，大域的に最適な方策に収束することが可能である．この望ましい性質は，従来法は持ち合わせておらず，提案法の大きな強みであると言える．提案法を有名なベンチマーク問題であるカートポールの振り上げ問題に応用し，従来法を凌駕する性能を発揮することを確認した． 2. データ同化アルゴリズムの開発新しい強化学習法にデータ同化を組み込むため，データ同化の実装を進めた．ヒト型ロボットの物理シミュレーションに従来のサンプリング規範のデータ同化法を適用した結果，膨大な計算時間が発生することが確認された．データ同化強化学習は，データ同化によるシミュレータ学習と方策学習を繰り返すため，データ同化の計算時間を大幅に削減する必要がある．現在，計算機クラスタによる並列計算による高速化，ならびにより計算コストに優れたガウス過程に基づくデータ同化法の開発を行うことを検討する．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度の予定は，データ同化強化学習の数理基盤の構築，データ同化法の実装を行うことであった．データ同化強化学習の数理基盤の構築については順調に研究を進行させられているが，データ同化の計算量は当初の想定を超えるものであり，計算コスト削減に尽力している．現在，計算時間の短縮にはある程度目処が立っている状態になっていることから，多少の遅延はあるが，おおむね順調に進展していると言える.
Strategy for Future Research Activity	今後はデータ同化の高速化を進めるとともに，データ同化と今年度提案した強化学習法を組み合わせる方法論を提案する．データ同化の高速化は，現状では計算機のパワーに頼る解決法が有力と考えられるため，スーパーコンピュータや高性能PCによる並列化演算を推進する予定である．また，データ同化の実応用問題としてロボット制御を検討していたが，細胞制御やソーシャルネットワークにおける推薦問題などよりデータ同化強化学習の活躍が見込まれる問題は多数存在する．それらの問題も視野に入れて実応用を模索していく．
Expenditure Plans for the Next FY Research Funding	本年度は強化学習の定式化に大きく時間を割いたため，データ同化実験に入るのが遅れ，計算機の購入が間に合わなかった．また，当初希望していた計算機がモデルチェンジのため，仕様が変更となってしまい，希望する仕様を満たす計算機を再度検索する必要が発生したため．次年度は，開発した強化学習法とデータ同化を組み合わせるため，高性能計算機を導入し，計算効率を向上させるとともに，並列計算用のソフトウェアを購入する．また，論文発表用の英語添削費や別刷り代も使用する．

Research Products
(4 results)

All 2014 2013

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results) (of which Invited: 2 results)

[Journal Article] Active learning for noisy oracle via density power divergence2013
- Author(s)
  Y. Sogawa, T. Ueno, Y. Kawahara, T. Washio,
- Journal Title
  
  Neural Networks
  
  Volume: 46 Pages: 133-143
- Peer Reviewed
[Presentation] e射影に基づく方策探索法2014
- Author(s)
  植野　剛
- Organizer
  人工知能学会全国大会
- Place of Presentation
  愛媛県松山市
- Year and Date
  2014-05-12 – 2014-05-15
[Presentation] Semiparametric Statistical Inference to Reinforcement Leanrning2013
- Author(s)
  Tsuyoshi Ueno
- Organizer
  Bernoulli Society Satellite Meeting to the ISI World Statistics Congress 2013
- Place of Presentation
  東京都文京区
- Year and Date
  20130902-20130904
- Invited
[Presentation] 学習による制御: 強化学習2013
- Author(s)
  植野　剛
- Organizer
  計測・制御・システム工学部会シンポジウム
- Place of Presentation
  千葉県千葉市
- Year and Date
  20130619-20130619
- Invited

2013 Fiscal Year Research-status Report

データ同化強化学習

Principal Investigator

植野 剛 大阪大学, 産業科学研究所, 招へい研究員 (90615824)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Active learning for noisy oracle via density power divergence2013

Author(s)

Journal Title

[Presentation] e射影に基づく方策探索法2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Semiparametric Statistical Inference to Reinforcement Leanrning2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 学習による制御: 強化学習2013

Author(s)

Organizer

Place of Presentation

Year and Date

植野剛大阪大学, 産業科学研究所, 招へい研究員 (90615824)