2019 Fiscal Year Annual Research Report
Theory and Application of Statistical Reinforcement Learning
Project/Area Number |
17H00757
|
Research Institution | The University of Tokyo |
Principal Investigator |
杉山 将 東京大学, 大学院新領域創成科学研究科, 教授 (90334515)
|
Project Period (FY) |
2017-04-01 – 2022-03-31
|
Keywords | 強化学習 / 機械学習 / 多腕バンディット問題 / ロバスト性 |
Outline of Annual Research Achievements |
今年度は,本研究プロジェクトの基盤をなす強化学習アルゴリズムの改良と多腕バンディット問題に対する新手法開発を行い,重要な成果をあげることができた. 標準的な強化学習では報酬関数を事前に定義することが困難であることが多く,人間のエキスパートが効果的な政策関数を教師信号として提示し,それをもとに報酬関数を学習する模倣学習と呼ばれるアプローチが有効であることが知られている.我々は,我々のグループで別途取り組んでいる弱教師付き学習と呼ばれる強い教師信号を必要としない機械学習に関する知見を活用し,画期的な模倣学習アルゴリズムを2つ開発した.一つは,教師データに信頼度が付与されている場合に不完全な教師信号からでも報酬関数を学習できる手法であり,もう一つは,ユーザが教師情報の取得プロセスに介入できる状況において苦手な部分の情報を積極的に取得する手法である.それぞれの手法の性質・振る舞いを理論的・実験的に解析し,有用性を確認した. また,強化学習で解決したいタスクが非常に複雑な場合,それを複数の小タスクに分割することが有効である.階層型強化学習はそのような分割アプローチの一つであり,我々は情報量最大化の原理に基づく新しい階層型強化学習のアルゴリズムを開発し,その有効性を計算機シミュレーションにより確認した. 年度末に,コロナウイルスの蔓延による出張中止が相次いたため,来年度に向けた共同研究の打ち合わせが滞りつつある.来年度の主要な国内・国際会議も相次いで中止が決まっており,今後,情報収集に一定の影響が出るものと思われる.状況を注視しながら,適応的に研究計画を更新していく予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
模倣学習において革新的なアルゴリズムを開発し,階層強化学習においても重要な研究成果を得るなど,アルゴリズムの開発に関しては当初の計画以上に研究が進展している.一方,応用研究に関しては,複数のパートナーと研究を行っており,徐々に成果が得られつつある.しかし,年度末のコロナウイルスの蔓延により,応用研究の今後の展開に関しては不確定性が高まってきたため,今後の展開は慎重に検討する必要がある.
|
Strategy for Future Research Activity |
コロナウイルス蔓延の影響を受け,応用研究のパートナーの研究の進捗に大きな影響が出てくると想定される.そのため,世界の動向を慎重に見極めつつ,応用研究の推進が困難になる場合は理論研究主体に切り替えるなど,適応的にプロジェクトのバランスを調整し,期間内に得られる成果が最大化できるよう心がける.
|
-
-
[Journal Article] Good arm identification via bandit feedback2019
Author(s)
Kano, H., Honda, J., Sakamaki, K., Matsuura, K., Nakamura, A., & Sugiyama, M.
-
Journal Title
Machine Learning
Volume: 108
Pages: 721-745
Peer Reviewed
-
-
-