2019 Fiscal Year Annual Research Report

Theory and Application of Statistical Reinforcement Learning

Research Project

Project/Area Number	17H00757
Research Institution	The University of Tokyo
Principal Investigator	杉山将東京大学, 大学院新領域創成科学研究科, 教授 (90334515)
Project Period (FY)	2017-04-01 – 2022-03-31
Keywords	強化学習 / 機械学習 / 多腕バンディット問題 / ロバスト性
Outline of Annual Research Achievements	今年度は，本研究プロジェクトの基盤をなす強化学習アルゴリズムの改良と多腕バンディット問題に対する新手法開発を行い，重要な成果をあげることができた．標準的な強化学習では報酬関数を事前に定義することが困難であることが多く，人間のエキスパートが効果的な政策関数を教師信号として提示し，それをもとに報酬関数を学習する模倣学習と呼ばれるアプローチが有効であることが知られている．我々は，我々のグループで別途取り組んでいる弱教師付き学習と呼ばれる強い教師信号を必要としない機械学習に関する知見を活用し，画期的な模倣学習アルゴリズムを２つ開発した．一つは，教師データに信頼度が付与されている場合に不完全な教師信号からでも報酬関数を学習できる手法であり，もう一つは，ユーザが教師情報の取得プロセスに介入できる状況において苦手な部分の情報を積極的に取得する手法である．それぞれの手法の性質・振る舞いを理論的・実験的に解析し，有用性を確認した．また，強化学習で解決したいタスクが非常に複雑な場合，それを複数の小タスクに分割することが有効である．階層型強化学習はそのような分割アプローチの一つであり，我々は情報量最大化の原理に基づく新しい階層型強化学習のアルゴリズムを開発し，その有効性を計算機シミュレーションにより確認した．年度末に，コロナウイルスの蔓延による出張中止が相次いたため，来年度に向けた共同研究の打ち合わせが滞りつつある．来年度の主要な国内・国際会議も相次いで中止が決まっており，今後，情報収集に一定の影響が出るものと思われる．状況を注視しながら，適応的に研究計画を更新していく予定である．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 模倣学習において革新的なアルゴリズムを開発し，階層強化学習においても重要な研究成果を得るなど，アルゴリズムの開発に関しては当初の計画以上に研究が進展している．一方，応用研究に関しては，複数のパートナーと研究を行っており，徐々に成果が得られつつある．しかし，年度末のコロナウイルスの蔓延により，応用研究の今後の展開に関しては不確定性が高まってきたため，今後の展開は慎重に検討する必要がある．
Strategy for Future Research Activity	コロナウイルス蔓延の影響を受け，応用研究のパートナーの研究の進捗に大きな影響が出てくると想定される．そのため，世界の動向を慎重に見極めつつ，応用研究の推進が困難になる場合は理論研究主体に切り替えるなど，適応的にプロジェクトのバランスを調整し，期間内に得られる成果が最大化できるよう心がける．

Research Products
(5 results)

All 2020 2019 Other

All Journal Article (4 results) (of which Int'l Joint Research: 2 results, Peer Reviewed: 4 results) Remarks (1 results)

[Journal Article] Active deep Q-learning with demonstration2020
- Author(s)
  Chen, S.-A., Tangkaratt, V., Lin, H.-T., & Sugiyama, M.
- Journal Title
  
  Machine Learning, to appear
  
  Volume: - Pages: 27 pages
- Peer Reviewed / Int'l Joint Research
[Journal Article] Good arm identification via bandit feedback2019
- Author(s)
  Kano, H., Honda, J., Sakamaki, K., Matsuura, K., Nakamura, A., & Sugiyama, M.
- Journal Title
  
  Machine Learning
  
  Volume: 108 Pages: 721-745
- Peer Reviewed
[Journal Article] Hierarchical reinforcement learning via advantage-weighted information maximization2019
- Author(s)
  Osa, T., Tangkaratt, V., & Sugiyama, M.
- Journal Title
  
  Proceedings of Seventh International Conference on Learning Representations (ICLR2019)
  
  Volume: - Pages: 16 pages
- Peer Reviewed
[Journal Article] Imitation learning from imperfect demonstration2019
- Author(s)
  Wu, Y.-H., Charoenphakdee, N., Bao, H., Tangkaratt, V., & Sugiyama, M.
- Journal Title
  
  Proceedings of 36th International Conference on Machine Learning (ICML2019)
  
  Volume: - Pages: 6818-6827
- Peer Reviewed / Int'l Joint Research
[Remarks] 論文リスト
- URL
  http://www.ms.k.u-tokyo.ac.jp/sugi/publications.html

2019 Fiscal Year Annual Research Report

Theory and Application of Statistical Reinforcement Learning

Principal Investigator

杉山 将 東京大学, 大学院新領域創成科学研究科, 教授 (90334515)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Active deep Q-learning with demonstration2020

Author(s)

Journal Title

[Journal Article] Good arm identification via bandit feedback2019

Author(s)

Journal Title

[Journal Article] Hierarchical reinforcement learning via advantage-weighted information maximization2019

Author(s)

Journal Title

[Journal Article] Imitation learning from imperfect demonstration2019

Author(s)

Journal Title

[Remarks] 論文リスト

URL

杉山将東京大学, 大学院新領域創成科学研究科, 教授 (90334515)