研究課題/領域番号 |
17K12737
|
研究種目 |
若手研究(B)
|
配分区分 | 基金 |
研究分野 |
知能情報学
|
研究機関 | 東京農工大学 |
研究代表者 |
矢野 史朗 東京農工大学, 工学(系)研究科(研究院), 助教 (90636789)
|
研究期間 (年度) |
2017-04-01 – 2019-03-31
|
研究課題ステータス |
完了 (2018年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2018年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2017年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
|
キーワード | 強化学習 / 鏡像降下法 / ベイズ推定 / Nesterov加速 / 直接方策探索 / Nesterov加速法 / 機械学習 |
研究成果の概要 |
「鏡像降下法を基盤にした強化学習アルゴリズムの設計」「鏡像降下法とベイズ学習の関係理解」「強化学習アルゴリズムの応用」という構成で研究を進めた. アルゴリズム設計では,鏡像降下法を基盤にderivative freeアルゴリズムを設計した.さらに,鏡像降下法の拡張を行った上で同様の手続きを行うという手順により,強化学習アルゴリズムの拡張が可能であることを示した.鏡像降下法からベイズの定理が導出できることに着目し,統計的推定アルゴリズムと強化学習アルゴリズムの接点について研究を行った.設計した強化学習アルゴリズムの応用事例研究として,多自由度の強化学習問題と,ロボットアーム制御問題を扱った.
|
研究成果の学術的意義や社会的意義 |
相手の価値観や競技の採点基準(目的関数)を満たすよう行動を最適化する必要があるとき,初対面の相手や初めての競技で,この目的関数を事前に把握することは困難である.本課題で扱うのは,こうした扱う問題のモデルを持たない状況で現場に臨み行動(方策関数)を最適化していく問題であり,未知環境下で活動する人工物にとって重要な問題である. より実用的には行動空間も状態空間も高次元かつ連続という状況を考える必要があり,本課題ではこうした高次元な強化学習問題のためのアルゴリズム設計と,いくつかの応用事例を示すものである.
|