研究課題/領域番号 |
25730135
|
研究種目 |
若手研究(B)
|
研究機関 | 大阪大学 |
研究代表者 |
植野 剛 大阪大学, 産業科学研究所, 招へい研究員 (90615824)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 強化学習 / 最適制御 / データ同化 / 統計学習 |
研究概要 |
本年度はデータ同化強化学習を実現するため,次の2つの課題に取り組んだ. 1. データ同化強化学習の数理基盤の構築 データ同化は潜在変数を持つ確率過程のフィルタリング,スムージングを計算する必要がある.したがって,データ同化と強化学習を組み合わせるためには,これらの確率演算と相性がよい強化学習法を考える必要がある.私は,従来法と異なり,強化学習を統計学習問題に変換し,グラフィカルモデルの近似推論法により最適な方策を導出する強化学習法を開発した.この開発法は確率推論を規範とした方法であるため,当然ながら確率演算と親和性が高く,データ同化を直線的に適用することが可能である.さらに,提案法は理論的にも素晴らしい性質を有しており,近似推論が正確な場合,大域的に最適な方策に収束することが可能である.この望ましい性質は,従来法は持ち合わせておらず,提案法の大きな強みであると言える. 提案法を有名なベンチマーク問題であるカートポールの振り上げ問題に応用し,従来法を凌駕する性能を発揮することを確認した. 2. データ同化アルゴリズムの開発 新しい強化学習法にデータ同化を組み込むため,データ同化の実装を進めた.ヒト型ロボットの物理シミュレーションに従来のサンプリング規範のデータ同化法を適用した結果,膨大な計算時間が発生することが確認された.データ同化強化学習は,データ同化によるシミュレータ学習と方策学習を繰り返すため,データ同化の計算時間を大幅に削減する必要がある.現在,計算機クラスタによる並列計算による高速化,ならびにより計算コストに優れたガウス過程に基づくデータ同化法の開発を行うことを検討する.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度の予定は,データ同化強化学習の数理基盤の構築,データ同化法の実装を行うことであった.データ同化強化学習の数理基盤の構築については順調に研究を進行させられているが,データ同化の計算量は当初の想定を超えるものであり,計算コスト削減に尽力している.現在,計算時間の短縮にはある程度目処が立っている状態になっていることから,多少の遅延はあるが,おおむね順調に進展していると言える.
|
今後の研究の推進方策 |
今後はデータ同化の高速化を進めるとともに,データ同化と今年度提案した強化学習法を組み合わせる方法論を提案する.データ同化の高速化は,現状では計算機のパワーに頼る解決法が有力と考えられるため,スーパーコンピュータや高性能PCによる並列化演算を推進する予定である.また,データ同化の実応用問題としてロボット制御を検討していたが,細胞制御やソーシャルネットワークにおける推薦問題などよりデータ同化強化学習の活躍が見込まれる問題は多数存在する.それらの問題も視野に入れて実応用を模索していく.
|
次年度の研究費の使用計画 |
本年度は強化学習の定式化に大きく時間を割いたため,データ同化実験に入るのが遅れ,計算機の購入が間に合わなかった.また,当初希望していた計算機がモデルチェンジのため,仕様が変更となってしまい,希望する仕様を満たす計算機を再度検索する必要が発生したため. 次年度は,開発した強化学習法とデータ同化を組み合わせるため,高性能計算機を導入し,計算効率を向上させるとともに,並列計算用のソフトウェアを購入する.また,論文発表用の英語添削費や別刷り代も使用する.
|