• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

Theory and Application of Statistical Reinforcement Learning

Research Project

Project/Area Number 17H00757
Research InstitutionThe University of Tokyo

Principal Investigator

杉山 将  東京大学, 大学院新領域創成科学研究科, 教授 (90334515)

Project Period (FY) 2017-04-01 – 2022-03-31
Keywords強化学習 / 機械学習 / 多腕バンディット問題 / ロバスト性
Outline of Annual Research Achievements

今年度も,オンラインでの活動をメインに基礎理論的な研究を推進し,特に実世界におけるロバスト性に関して大きな研究成果を得た.
1つ目の研究の柱である強化学習の研究に関して,未知の環境においては理想的な状況における最適性よりも不確定性に対するロバスト性が重要視される事が多いことに着目し,有限時間における安全性の概念を導入した.そして,安全性を保証できる学習アルゴリズムを考案し,その理論的な性質を明らかにするとともに,実験的な妥当性を示した.また,模倣学習に関して,専門家と非専門家から得た教示データが混ざっている状況でのロバスト学習手法を開発した.具体的には,専門家と非専門家から得た教示データからの模倣学習を,ラベル雑音を含む分類問題の一種とみなして分類リスクの補正を行い,更に擬似ラベル付け技術を援用することにより,実用的なアルゴリズムを構築した.
もう一つの研究の柱である不確定性を考慮したベイズ型の学習技術に関しては,近似ベイズ計算とよばれる,尤度関数が明示的に計算できない困難な状況でもベイズ推論の実行を近似的に可能にする技術を対象に外れ値に対するロバスト性を向上させられる新しい技法を開発した.この成果は第24回情報論的学習理論ワークショップの優秀発表賞に選ばれた.
更に,強化学習とベイズ推論の架け橋として,尤度比勾配と再パラメータ化勾配の関係を理論的に解明し,モンテカルロ勾配推定の研究を今後更に深めていくための基盤を築いた.

Research Progress Status

令和3年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和3年度が最終年度であるため、記入しない。

  • Research Products

    (8 results)

All 2022 2021 Other

All Int'l Joint Research (1 results) Journal Article (5 results) (of which Int'l Joint Research: 2 results,  Peer Reviewed: 5 results,  Open Access: 5 results) Book (1 results) Remarks (1 results)

  • [Int'l Joint Research] University of Washington/Georgia Institute of Technology(米国)

    • Country Name
      U.S.A.
    • Counterpart Institution
      University of Washington/Georgia Institute of Technology
  • [Journal Article] Discovering diverse solutions in deep reinforcement learning by maximizing state-action-based mutual information.2022

    • Author(s)
      Osa, T., Tangkaratt, V., & Sugiyama, M.
    • Journal Title

      Neural Networks

      Volume: - Pages: -

    • Peer Reviewed / Open Access
  • [Journal Article] Constraint learning for control tasks with limited duration barrier functions2021

    • Author(s)
      Ohnishi Motoya、Notomista Gennaro、Sugiyama Masashi、Egerstedt Magnus
    • Journal Title

      Automatica

      Volume: 127 Pages: 109504~109504

    • DOI

      10.1016/j.automatica.2021.109504

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] A unified view of likelihood ratio and reparameterization gradients2021

    • Author(s)
      Parmas, P. & Sugiyama, M.
    • Journal Title

      Proceedings of 24th International Conference on Artificial Intelligence and Statistics (AISTATS2021)

      Volume: - Pages: 4078-4086

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Robust imitation learning from noisy demonstrations2021

    • Author(s)
      Tangkaratt, V., Charoenphakdee, N., & Sugiyama, M.
    • Journal Title

      Proceedings of 24th International Conference on Artificial Intelligence and Statistics (AISTATS2021)

      Volume: - Pages: 298-306

    • Peer Reviewed / Open Access
  • [Journal Article] γ-ABC: Outlier-robust approximate Bayesian computation based on a robust divergence estimator2021

    • Author(s)
      Fujisawa, M., Teshima, T., Sato, I., & Sugiyama, M.
    • Journal Title

      Proceedings of 24th International Conference on Artificial Intelligence and Statistics (AISTATS2021)

      Volume: - Pages: 1783-1791

    • Peer Reviewed / Open Access
  • [Book] Machine Learning from Weak Supervision: An Empirical Risk Minimization Approach2022

    • Author(s)
      Masashi Sugiyama, Han Bao, Takashi Ishida, Nan Lu, Tomoya Sakai, and Gang Niu
    • Total Pages
      320 pages
    • Publisher
      The MIT Press
  • [Remarks] 論文リスト

    • URL

      http://www.ms.k.u-tokyo.ac.jp/sugi/publications.html

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi