研究領域 | 予測と意思決定の脳内計算機構の解明による人間理解と応用 |
研究課題/領域番号 |
23120004
|
研究機関 | 東京大学 |
研究代表者 |
杉山 将 東京大学, 新領域創成科学研究科, 教授 (90334515)
|
研究分担者 |
森本 淳 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 研究室長 (10505986)
|
研究期間 (年度) |
2011-04-01 – 2016-03-31
|
キーワード | 予測 / 意志決定 / 機械学習 / 特徴選択 / 強化学習 / ロボット制御 |
研究実績の概要 |
本年度は,特徴選択および特徴抽出に関して,エントロピー正則化に基づく距離計量学習アルゴリズムの開発,特徴選択に用いる統計的従属性尺度の推定アルゴリズムの開発を行い,論文を出版した.また,モデルベース強化学習において重要な働きをする状態遷移確率(条件付き確率密度)推定における特徴選択および特徴抽出に関して,特徴選択および特徴抽出手法を適用した後に条件付き確率密度を推定するという従来の二段階のアプローチではなく,特徴選択および特徴抽出と条件付き確率密度の推定を同時に行うための基礎研究を行った. 強化学習に関して,条件付き確率の直接推定に基づくモデルベース強化学習アルゴリズムを開発し,その有効性を計算機シミュレーションにより実証した.また,報酬が時間とともに任意に変化するという非常に厳しい状況下でのオンライン強化学習アルゴリズムを開発し,その性質を理論的に明らかにした.更に,昨年度開発した標本再利用型モデルフリー強化学習アルゴリズムを実ヒューマノイドロボット制御に応用し,その有用性を実証した.高次元・実環境での強化学習アルゴリズムの改良のためにモデル予測制御の援用を予定しており,その基礎的検討を行った.具体的には,2足歩行ロボットモデルの特異摂動系への変換にもとづいて,評価時間を力学系の時定数にあわせて2段階用意することにより効率的な最適制御軌道の生成が可能となった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本年度は,計画した研究課題を達成しただけでなく,当初計画していなかった新しい成果が多数得られ,トップレベルの国際会議に複数の論文を発表することができた.また,高いレベルの国際会議で最優秀論文賞を獲得した.
|
今後の研究の推進方策 |
最終年度の来年度は,計画に従い研究を遂行していくことに加え,これまでの研究成果を総括するとともに,将来の更なる発展に向けて議論する.
|