研究課題/領域番号 |
17K12737
|
研究機関 | 東京農工大学 |
研究代表者 |
矢野 史朗 東京農工大学, 工学(系)研究科(研究院), 助教 (90636789)
|
研究期間 (年度) |
2017-04-01 – 2019-03-31
|
キーワード | 強化学習 / 鏡像降下法 / 直接方策探索 / Nesterov加速法 / ベイズ推定 |
研究実績の概要 |
鏡像降下法に基づき,下記4つの研究を遂行した.詳細はそれぞれ末尾に記載する.(a.1)直接方策探索法の設計(Mirror Descent Search, MDSの提案)(a.2)Path Integral Policy Search (PI2)を含む幾つかの既存手法の再解釈(b.1)加速鏡像降下法に基づくMDSの拡張(Accelerated Mirror Descent Search, AMDSの提案)(b.2)MDSおよびAMDSの性能評価実験 (a.1) 強化学習問題は,問題着手時に目的関数の関数形がわかっていない条件で最適化が要求される問題といえる.つまり問題開始時点で目的関数の微分が容易にできない.この問題への対処として,目的関数の学習を陽に行う価値関数ベースの手法,方策勾配定理に基づく方策関数ベースの手法が採用されてきた.本研究はこれに対し,鏡像降下法(Mirror Descent, MD)に基づいた微分フリーの勾配法を導出し,Mirror Descent Search(MDS)として提案した. (a.2) 近年提案されたPI2やREPSといった強化学習手法が,MDSから求まることを示した.またMDSの定式化に用いるBregman Divergenceからα-Divergenceを経由してKullback Leibler Divergenceの順逆方向どちらもが求まることに着目し,近年提案されたその他の手法との関連性を論じた. (b.1) 鏡像降下法は強化学習と独立した分野として研究が進んでいる.この分野でNesterov加速法を非ユークリッド空間に拡張して鏡像降下法に統合した手法である加速鏡像降下法が近年提案されており,これを用いてMDSをAMDSへと拡張した.収束速度が改善される. (b.2) MDS,AMDSを幾つかのベンチマーク問題で評価し,良好な結果を得た.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
非常に順調に進展している. まず鏡像降下法および提案手法の理解が進んだ結果,申請時に鏡像降下法から導出可能と列挙した既存手法の多くについて関連性が明らかになった.特に提案手法が微分計算(最急降下法)の代用となり得ることから,従来手法に含まれる最急降下法の部分を本手法で置き換える研究や,双方を組み合わせる研究などにも着手でき,当初の予定以上に研究が進んだ. またKL制約条件付き最適化問題の逐次最適化アルゴリズムとしてベイズの定理を導出する研究が1980年代から一部研究者の間で進んでいることを調査し,鏡像降下法を用いてベイズの定理に対してもNesterov加速が適用できる可能性について明らかにした.これに加えて,Bayesian Brain仮説を提唱している計算論的な認知科学・神経科学の研究分野の学術雑誌や国際会議で,ベイズの定理を勾配法として解釈することや強化学習との関連について紹介した.
|
今後の研究の推進方策 |
当初計画通り,次の2点に取り組む.(c)深層強化学習への適用可能性の評価 (d)ロボットアーム制御など,実世界での評価の検討. (c.1) 深層強化学習のような多層かつ高次元の最適化問題に提案手法MDSを適用した場合に,適切に収束するか,あるいは追加の技法が必要かを評価する.本手法はベイズ推定と関連があるため,近年発展著しいBayesian Deep Neural Networkの技法を取り込むことなどが課題と考えている. (c.2) 深層強化学習の既存手法は幾つか提案されている.Deterministic Policy Gradient(DPG)をActor-Critic型深層強化学習に適用できるよう拡張した手法でSoTAの一つとなっているdeep-DPG(DDPG)に着目する.DDPGでは4つのDNNを使用するため,大量のメモリを使用する.DDPG内の数カ所で使用されている最急降下法をMDSに置き換え,よりメモリ消費の少ない深層強化学習アルゴリズムを設計することを目指す. (d) 実世界での手法評価のため,ロボットアームなどの制御に取り組む.深層強化学習DDPGの拡張に成功していれば,画像入力からトルク制御までのend-to-end学習を目指す.
|
備考 |
Webページ1,2では,国際会議Workshop(査読なし)において研究成果を発表した際の概要を記載している.
|