2021 Fiscal Year Annual Research Report
Theory and Application of Statistical Reinforcement Learning
Project/Area Number |
17H00757
|
Research Institution | The University of Tokyo |
Principal Investigator |
杉山 将 東京大学, 大学院新領域創成科学研究科, 教授 (90334515)
|
Project Period (FY) |
2017-04-01 – 2022-03-31
|
Keywords | 強化学習 / 機械学習 / 多腕バンディット問題 / ロバスト性 |
Outline of Annual Research Achievements |
今年度も,オンラインでの活動をメインに基礎理論的な研究を推進し,特に実世界におけるロバスト性に関して大きな研究成果を得た. 1つ目の研究の柱である強化学習の研究に関して,未知の環境においては理想的な状況における最適性よりも不確定性に対するロバスト性が重要視される事が多いことに着目し,有限時間における安全性の概念を導入した.そして,安全性を保証できる学習アルゴリズムを考案し,その理論的な性質を明らかにするとともに,実験的な妥当性を示した.また,模倣学習に関して,専門家と非専門家から得た教示データが混ざっている状況でのロバスト学習手法を開発した.具体的には,専門家と非専門家から得た教示データからの模倣学習を,ラベル雑音を含む分類問題の一種とみなして分類リスクの補正を行い,更に擬似ラベル付け技術を援用することにより,実用的なアルゴリズムを構築した. もう一つの研究の柱である不確定性を考慮したベイズ型の学習技術に関しては,近似ベイズ計算とよばれる,尤度関数が明示的に計算できない困難な状況でもベイズ推論の実行を近似的に可能にする技術を対象に外れ値に対するロバスト性を向上させられる新しい技法を開発した.この成果は第24回情報論的学習理論ワークショップの優秀発表賞に選ばれた. 更に,強化学習とベイズ推論の架け橋として,尤度比勾配と再パラメータ化勾配の関係を理論的に解明し,モンテカルロ勾配推定の研究を今後更に深めていくための基盤を築いた.
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|
Research Products
(8 results)