2013 年度実施状況報告書

データ同化強化学習

研究課題

研究課題/領域番号	25730135
研究種目	若手研究(B)
研究機関	大阪大学
研究代表者	植野剛大阪大学, 産業科学研究所, 招へい研究員 (90615824)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	強化学習 / 最適制御 / データ同化 / 統計学習
研究概要	本年度はデータ同化強化学習を実現するため，次の２つの課題に取り組んだ． 1. データ同化強化学習の数理基盤の構築データ同化は潜在変数を持つ確率過程のフィルタリング，スムージングを計算する必要がある．したがって，データ同化と強化学習を組み合わせるためには，これらの確率演算と相性がよい強化学習法を考える必要がある．私は，従来法と異なり，強化学習を統計学習問題に変換し，グラフィカルモデルの近似推論法により最適な方策を導出する強化学習法を開発した．この開発法は確率推論を規範とした方法であるため，当然ながら確率演算と親和性が高く，データ同化を直線的に適用することが可能である．さらに，提案法は理論的にも素晴らしい性質を有しており，近似推論が正確な場合，大域的に最適な方策に収束することが可能である．この望ましい性質は，従来法は持ち合わせておらず，提案法の大きな強みであると言える．提案法を有名なベンチマーク問題であるカートポールの振り上げ問題に応用し，従来法を凌駕する性能を発揮することを確認した． 2. データ同化アルゴリズムの開発新しい強化学習法にデータ同化を組み込むため，データ同化の実装を進めた．ヒト型ロボットの物理シミュレーションに従来のサンプリング規範のデータ同化法を適用した結果，膨大な計算時間が発生することが確認された．データ同化強化学習は，データ同化によるシミュレータ学習と方策学習を繰り返すため，データ同化の計算時間を大幅に削減する必要がある．現在，計算機クラスタによる並列計算による高速化，ならびにより計算コストに優れたガウス過程に基づくデータ同化法の開発を行うことを検討する．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度の予定は，データ同化強化学習の数理基盤の構築，データ同化法の実装を行うことであった．データ同化強化学習の数理基盤の構築については順調に研究を進行させられているが，データ同化の計算量は当初の想定を超えるものであり，計算コスト削減に尽力している．現在，計算時間の短縮にはある程度目処が立っている状態になっていることから，多少の遅延はあるが，おおむね順調に進展していると言える.
今後の研究の推進方策	今後はデータ同化の高速化を進めるとともに，データ同化と今年度提案した強化学習法を組み合わせる方法論を提案する．データ同化の高速化は，現状では計算機のパワーに頼る解決法が有力と考えられるため，スーパーコンピュータや高性能PCによる並列化演算を推進する予定である．また，データ同化の実応用問題としてロボット制御を検討していたが，細胞制御やソーシャルネットワークにおける推薦問題などよりデータ同化強化学習の活躍が見込まれる問題は多数存在する．それらの問題も視野に入れて実応用を模索していく．
次年度の研究費の使用計画	本年度は強化学習の定式化に大きく時間を割いたため，データ同化実験に入るのが遅れ，計算機の購入が間に合わなかった．また，当初希望していた計算機がモデルチェンジのため，仕様が変更となってしまい，希望する仕様を満たす計算機を再度検索する必要が発生したため．次年度は，開発した強化学習法とデータ同化を組み合わせるため，高性能計算機を導入し，計算効率を向上させるとともに，並列計算用のソフトウェアを購入する．また，論文発表用の英語添削費や別刷り代も使用する．

研究成果
(4件)

すべて 2014 2013

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件) (うち招待講演 2件)

[雑誌論文] Active learning for noisy oracle via density power divergence2013
- 著者名/発表者名
  Y. Sogawa, T. Ueno, Y. Kawahara, T. Washio,
- 雑誌名
  
  Neural Networks
  
  巻: 46 ページ: 133-143
- 査読あり
[学会発表] e射影に基づく方策探索法2014
- 著者名/発表者名
  植野　剛
- 学会等名
  人工知能学会全国大会
- 発表場所
  愛媛県松山市
- 年月日
  2014-05-12 – 2014-05-15
[学会発表] Semiparametric Statistical Inference to Reinforcement Leanrning2013
- 著者名/発表者名
  Tsuyoshi Ueno
- 学会等名
  Bernoulli Society Satellite Meeting to the ISI World Statistics Congress 2013
- 発表場所
  東京都文京区
- 年月日
  20130902-20130904
- 招待講演
[学会発表] 学習による制御: 強化学習2013
- 著者名/発表者名
  植野　剛
- 学会等名
  計測・制御・システム工学部会シンポジウム
- 発表場所
  千葉県千葉市
- 年月日
  20130619-20130619
- 招待講演

2013 年度 実施状況報告書

データ同化強化学習

研究代表者

植野 剛 大阪大学, 産業科学研究所, 招へい研究員 (90615824)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Active learning for noisy oracle via density power divergence2013

著者名/発表者名

雑誌名

[学会発表] e射影に基づく方策探索法2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Semiparametric Statistical Inference to Reinforcement Leanrning2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 学習による制御: 強化学習2013

著者名/発表者名

学会等名

発表場所

年月日

2013 年度実施状況報告書

植野剛大阪大学, 産業科学研究所, 招へい研究員 (90615824)