2020 Fiscal Year Annual Research Report
Theory and Application of Statistical Reinforcement Learning
Project/Area Number |
17H00757
|
Research Institution | The University of Tokyo |
Principal Investigator |
杉山 将 東京大学, 大学院新領域創成科学研究科, 教授 (90334515)
|
Project Period (FY) |
2017-04-01 – 2022-03-31
|
Keywords | 強化学習 / 機械学習 / 多腕バンディット問題 / ロバスト性 |
Outline of Annual Research Achievements |
強化学習に関しては,弱教師付き模倣学習の研究を推進し,スキルにばらつきのあるエキスパートの集団から集めたデモンストレーションデータを効果的に活用できる変分推論型の弱教師付き模倣学習を開発した.そして,実用的なアルゴリズムを構成・実装し,計算機シミュレーションによってその有効性を実験的に確認した. 多腕バンディット問題に対しては,組み合わせ的な選択肢から意思決定を行う組み合わせバンディット問題に関する研究を行い,2つの重要な成果を得た.一つは,個々の腕でなくそれらの集合に対してのみしか報酬が観測できない状況での最適腕探索であり,ナイーブな解法では指数時間かかってしまう難問である.この問題に対して,多項式時間で実行できる近似解法を開発した.もう一つの成果は,グラフにおける密サブグラフ発見アルゴリズムである.個々のエッジでなく,エッジの集合からしか報酬を観測できない厳しい状況でも,ほぼ最適な性能が得られる近似アルゴリズムを構成することに成功した.また,トンプソン抽出とよばれる確率的なアルゴリズムを拡張し,報酬が部分的にしか観測できない場合でも所望の性能が得られるアルゴリズムを構成し,その有効性を理論的および計算機シミュレーションにより示した. ベイズ推論に関しては,複雑な形状を持つ事後分布からのサンプリング手法に関する研究を行い,革新的なアルゴリズムを開発した.これは,複数のパーティクルを同時に更新する手法であり,パーティクル間の交互作用を取り入れることにより,ナイーブな並行型のアルゴリズムよりも収束速度が向上することを理論的に証明し,その実際的な有効性を計算機シミュレーションにより示した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
コロナ禍のため,国際会議等を通して研究成果を売り込み,新しい共同研究につなげるという活動自体はは停滞してしまったが,その一方で,自分たちの基礎理論研究に特化することにより,想定以上の優れた研究成果を多数得ることができた.特に,多腕バンディット問題に対しては,正確な報酬情報が観測できない困難な場面でも,ほぼ最適な性能を実用的な時間で得ることのできる画期的なアルゴリズムを複数開発することができた.また,ベイズ推論や弱教師付き模倣学習に対しても,優れた研究成果を得ることができ,すべての成果をトップレベルの国際会議やジャーナルで発表することができた.
|
Strategy for Future Research Activity |
来年度は本プロジェクトの最終年度である.しかし,コロナ禍のため,国際会議等が対面で実施される可能性は低いと見込み,引き続きオンラインでの活動をメインに,基礎理論的な研究を推進する.そして,最終年度としての成果のとりまとめと,今後の発展について議論を行う.
|