2020 Fiscal Year Annual Research Report

Theory and Application of Statistical Reinforcement Learning

Research Project

Project/Area Number	17H00757
Research Institution	The University of Tokyo
Principal Investigator	杉山将東京大学, 大学院新領域創成科学研究科, 教授 (90334515)
Project Period (FY)	2017-04-01 – 2022-03-31
Keywords	強化学習 / 機械学習 / 多腕バンディット問題 / ロバスト性
Outline of Annual Research Achievements	強化学習に関しては，弱教師付き模倣学習の研究を推進し，スキルにばらつきのあるエキスパートの集団から集めたデモンストレーションデータを効果的に活用できる変分推論型の弱教師付き模倣学習を開発した．そして，実用的なアルゴリズムを構成・実装し，計算機シミュレーションによってその有効性を実験的に確認した．多腕バンディット問題に対しては，組み合わせ的な選択肢から意思決定を行う組み合わせバンディット問題に関する研究を行い，２つの重要な成果を得た．一つは，個々の腕でなくそれらの集合に対してのみしか報酬が観測できない状況での最適腕探索であり，ナイーブな解法では指数時間かかってしまう難問である．この問題に対して，多項式時間で実行できる近似解法を開発した．もう一つの成果は，グラフにおける密サブグラフ発見アルゴリズムである．個々のエッジでなく，エッジの集合からしか報酬を観測できない厳しい状況でも，ほぼ最適な性能が得られる近似アルゴリズムを構成することに成功した．また，トンプソン抽出とよばれる確率的なアルゴリズムを拡張し，報酬が部分的にしか観測できない場合でも所望の性能が得られるアルゴリズムを構成し，その有効性を理論的および計算機シミュレーションにより示した．ベイズ推論に関しては，複雑な形状を持つ事後分布からのサンプリング手法に関する研究を行い，革新的なアルゴリズムを開発した．これは，複数のパーティクルを同時に更新する手法であり，パーティクル間の交互作用を取り入れることにより，ナイーブな並行型のアルゴリズムよりも収束速度が向上することを理論的に証明し，その実際的な有効性を計算機シミュレーションにより示した．
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason コロナ禍のため，国際会議等を通して研究成果を売り込み，新しい共同研究につなげるという活動自体はは停滞してしまったが，その一方で，自分たちの基礎理論研究に特化することにより，想定以上の優れた研究成果を多数得ることができた．特に，多腕バンディット問題に対しては，正確な報酬情報が観測できない困難な場面でも，ほぼ最適な性能を実用的な時間で得ることのできる画期的なアルゴリズムを複数開発することができた．また，ベイズ推論や弱教師付き模倣学習に対しても，優れた研究成果を得ることができ，すべての成果をトップレベルの国際会議やジャーナルで発表することができた．
Strategy for Future Research Activity	来年度は本プロジェクトの最終年度である．しかし，コロナ禍のため，国際会議等が対面で実施される可能性は低いと見込み，引き続きオンラインでの活動をメインに，基礎理論的な研究を推進する．そして，最終年度としての成果のとりまとめと，今後の発展について議論を行う．

Research Products
(6 results)

All 2020 Other

All Journal Article (5 results) (of which Peer Reviewed: 5 results, Open Access: 4 results) Remarks (1 results)

[Journal Article] Variational imitation learning with diverse-quality demonstrations.2020
- Author(s)
  Tangkaratt, V., Han, B., Khan, M. E., & Sugiyama, M.
- Journal Title
  
  Proceedings of 37th International Conference on Machine Learning (ICML2020)
  
  Volume: - Pages: 9407-9417
- Peer Reviewed / Open Access
[Journal Article] Polynomial-time algorithms for multiple-arm identification with full-bandit feedback.2020
- Author(s)
  Kuroki, Y., Xu, L., Miyauchi, A., Honda, J., & Sugiyama, M.
- Journal Title
  
  Neural Computation
  
  Volume: 32 Pages: 1733-1773
- Peer Reviewed
[Journal Article] Online dense subgraph discovery via blurred-graph feedback.2020
- Author(s)
  Kuroki, Y., Miyauchi, A., Honda, J., & Sugiyama, M.
- Journal Title
  
  Proceedings of 37th International Conference on Machine Learning (ICML2020)
  
  Volume: - Pages: 5522-5532
- Peer Reviewed / Open Access
[Journal Article] Accelerating the diffusion-based ensemble sampling by non-reversible dynamics.2020
- Author(s)
  Futami, F., Sato, I., & Sugiyama, M.
- Journal Title
  
  Proceedings of 37th International Conference on Machine Learning (ICML2020)
  
  Volume: - Pages: 3337-3347
- Peer Reviewed / Open Access
[Journal Article] Analysis and design of Thompson sampling for stochastic partial monitoring.2020
- Author(s)
  Tsuchiya, T., Honda, J., & Sugiyama, M.
- Journal Title
  
  Advances in Neural Information Processing Systems 33
  
  Volume: - Pages: 8861-8871
- Peer Reviewed / Open Access
[Remarks] 論文リスト
- URL
  http://www.ms.k.u-tokyo.ac.jp/sugi/publications.html

2020 Fiscal Year Annual Research Report

Theory and Application of Statistical Reinforcement Learning

Principal Investigator

杉山 将 東京大学, 大学院新領域創成科学研究科, 教授 (90334515)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Variational imitation learning with diverse-quality demonstrations.2020

Author(s)

Journal Title

[Journal Article] Polynomial-time algorithms for multiple-arm identification with full-bandit feedback.2020

Author(s)

Journal Title

[Journal Article] Online dense subgraph discovery via blurred-graph feedback.2020

Author(s)

Journal Title

[Journal Article] Accelerating the diffusion-based ensemble sampling by non-reversible dynamics.2020

Author(s)

Journal Title

[Journal Article] Analysis and design of Thompson sampling for stochastic partial monitoring.2020

Author(s)

Journal Title

[Remarks] 論文リスト

URL

杉山将東京大学, 大学院新領域創成科学研究科, 教授 (90334515)