• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実績報告書

統計的強化学習の深化と応用

研究課題

研究課題/領域番号 17H00757
研究機関東京大学

研究代表者

杉山 将  東京大学, 大学院新領域創成科学研究科, 教授 (90334515)

研究期間 (年度) 2017-04-01 – 2022-03-31
キーワード強化学習 / 機械学習 / 多腕バンディット問題 / ロバスト性
研究実績の概要

今年度も,オンラインでの活動をメインに基礎理論的な研究を推進し,特に実世界におけるロバスト性に関して大きな研究成果を得た.
1つ目の研究の柱である強化学習の研究に関して,未知の環境においては理想的な状況における最適性よりも不確定性に対するロバスト性が重要視される事が多いことに着目し,有限時間における安全性の概念を導入した.そして,安全性を保証できる学習アルゴリズムを考案し,その理論的な性質を明らかにするとともに,実験的な妥当性を示した.また,模倣学習に関して,専門家と非専門家から得た教示データが混ざっている状況でのロバスト学習手法を開発した.具体的には,専門家と非専門家から得た教示データからの模倣学習を,ラベル雑音を含む分類問題の一種とみなして分類リスクの補正を行い,更に擬似ラベル付け技術を援用することにより,実用的なアルゴリズムを構築した.
もう一つの研究の柱である不確定性を考慮したベイズ型の学習技術に関しては,近似ベイズ計算とよばれる,尤度関数が明示的に計算できない困難な状況でもベイズ推論の実行を近似的に可能にする技術を対象に外れ値に対するロバスト性を向上させられる新しい技法を開発した.この成果は第24回情報論的学習理論ワークショップの優秀発表賞に選ばれた.
更に,強化学習とベイズ推論の架け橋として,尤度比勾配と再パラメータ化勾配の関係を理論的に解明し,モンテカルロ勾配推定の研究を今後更に深めていくための基盤を築いた.

現在までの達成度 (段落)

令和3年度が最終年度であるため、記入しない。

今後の研究の推進方策

令和3年度が最終年度であるため、記入しない。

  • 研究成果

    (8件)

すべて 2022 2021 その他

すべて 国際共同研究 (1件) 雑誌論文 (5件) (うち国際共著 2件、 査読あり 5件、 オープンアクセス 5件) 図書 (1件) 備考 (1件)

  • [国際共同研究] University of Washington/Georgia Institute of Technology(米国)

    • 国名
      米国
    • 外国機関名
      University of Washington/Georgia Institute of Technology
  • [雑誌論文] Discovering diverse solutions in deep reinforcement learning by maximizing state-action-based mutual information.2022

    • 著者名/発表者名
      Osa, T., Tangkaratt, V., & Sugiyama, M.
    • 雑誌名

      Neural Networks

      巻: - ページ: -

    • 査読あり / オープンアクセス
  • [雑誌論文] Constraint learning for control tasks with limited duration barrier functions2021

    • 著者名/発表者名
      Ohnishi Motoya、Notomista Gennaro、Sugiyama Masashi、Egerstedt Magnus
    • 雑誌名

      Automatica

      巻: 127 ページ: 109504~109504

    • DOI

      10.1016/j.automatica.2021.109504

    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] A unified view of likelihood ratio and reparameterization gradients2021

    • 著者名/発表者名
      Parmas, P. & Sugiyama, M.
    • 雑誌名

      Proceedings of 24th International Conference on Artificial Intelligence and Statistics (AISTATS2021)

      巻: - ページ: 4078-4086

    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Robust imitation learning from noisy demonstrations2021

    • 著者名/発表者名
      Tangkaratt, V., Charoenphakdee, N., & Sugiyama, M.
    • 雑誌名

      Proceedings of 24th International Conference on Artificial Intelligence and Statistics (AISTATS2021)

      巻: - ページ: 298-306

    • 査読あり / オープンアクセス
  • [雑誌論文] γ-ABC: Outlier-robust approximate Bayesian computation based on a robust divergence estimator2021

    • 著者名/発表者名
      Fujisawa, M., Teshima, T., Sato, I., & Sugiyama, M.
    • 雑誌名

      Proceedings of 24th International Conference on Artificial Intelligence and Statistics (AISTATS2021)

      巻: - ページ: 1783-1791

    • 査読あり / オープンアクセス
  • [図書] Machine Learning from Weak Supervision: An Empirical Risk Minimization Approach2022

    • 著者名/発表者名
      Masashi Sugiyama, Han Bao, Takashi Ishida, Nan Lu, Tomoya Sakai, and Gang Niu
    • 総ページ数
      320 pages
    • 出版者
      The MIT Press
  • [備考] 論文リスト

    • URL

      http://www.ms.k.u-tokyo.ac.jp/sugi/publications.html

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi