研究領域 | 予測と意思決定の脳内計算機構の解明による人間理解と応用 |
研究課題/領域番号 |
23120004
|
研究種目 |
新学術領域研究(研究領域提案型)
|
研究機関 | 東京工業大学 |
研究代表者 |
杉山 将 東京工業大学, 情報理工学(系)研究科, 准教授 (90334515)
|
研究分担者 |
森本 淳 株式会社国際電気通信基礎技術研究所, その他部局等, 研究員 (10505986)
|
キーワード | 予測 / 意思決定 / 機械学習 / 特徴選択 / 強化学習 / スパース学習 / ロバスト学習 / 制御理論 |
研究概要 |
特徴選択に関しては,スパース推定を用いた二種類のアルゴリズムを開発した.一つ目の方法は,小規模な予測・意思決定問題に対して最高の性能が得られる特徴選択アルゴリズムである.この手法では,少数の限られたデータを有効活用するため,各特徴の有用度を精度良く評価できる相互情報量の最適推定の枠組みをスパース正則化と組み合わせた.計算機実験により,計算時間はかかるが,データ数が限られた状況で精度良く特徴選択を行うことができることを確認した.もう一つの方法は,超大規模な予測・意思決定問題に対する高速特徴選択アルゴリズムである.この研究では,無数のデータをいかに効率よく処理するかが重要であり,最適化問題の双対性を有効活用した新しい最適化アルゴリズムを開発した.そしてそのスケーラビリティを計算機実験により確認した.また,特徴重み付け学習とオンライン学習の関連性を新たに見出し,当初の計画に含まれていなかった新しいタイプの特徴選択アルゴリズムも開発し,その数理的性質を解明した. 強化学習に関しては,高次元状態空間中における意思決定のための方策改善を可能とするためのアルゴリズムの開発を進めた. 具体的には、歩行ロボットのシミュレーションモデルにより提案するアプローチを検証し,20次元以上の状態空間においても従来手法では困難であった方策改善が可能であることが確かめられた。また,(脚と地面の衝突など)環境の力学系が離散的に変化する場合においても提案アプローチが適用可能であることがシミュレーション実験により確認された.また,報酬和の期待値だけでなく報酬和の確率分布そのものも厳密に推定するという独自の強化学習の枠組みのもと,報酬和の外れ値に対してロバストな強化学習手法の具体的なアルゴリズム開発を進めた.更に,政策勾配をよりロバストに推定できるPGPEアルゴリズムの理論解析を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
特徴選択の研究に関しては,計画していたアルゴリズムを順調に開発するとともに,特徴重み付けとオンライン学習に関する新たな発見があり,当初計画していなかった新たな手法の開発に成功した.強化学習の研究に関しては,ノイズや環境の変化に対してロバストな学習法の開発を計画通りに遂行することができた.
|
今後の研究の推進方策 |
特徴選択に関しては,小規模な予測・意思決定問題に対して最高の性能が得られる特徴選択アルゴリズムを更に発展させるとともに,大規模な予測・意思決定問題に適応できる高速アルゴリズムの性能を更に向上させる.強化学習に関しては,実環境における意思決定問題は解決すべき課題であり,シミュレーションにおいて検証された提案アプローチが実環境においても適用可能とするためのアルゴリズムの開発を進める.また,政策勾配をロバストに推定できるPGPEアルゴリズムの改良を行い,少ない標本からでも精度良く制御則が獲得できるようにする.
|