• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

統計的強化学習の深化と応用

研究課題

研究課題/領域番号 17H00757
研究種目

基盤研究(A)

配分区分補助金
応募区分一般
研究分野 知能情報学
研究機関東京大学

研究代表者

杉山 将  東京大学, 大学院新領域創成科学研究科, 教授 (90334515)

研究期間 (年度) 2017-04-01 – 2022-03-31
研究課題ステータス 完了 (2021年度)
配分額 *注記
44,980千円 (直接経費: 34,600千円、間接経費: 10,380千円)
2021年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
2020年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
2019年度: 10,660千円 (直接経費: 8,200千円、間接経費: 2,460千円)
2018年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
2017年度: 11,700千円 (直接経費: 9,000千円、間接経費: 2,700千円)
キーワード強化学習 / 機械学習 / 多腕バンディット問題 / 模倣学習 / ベイズ推論 / ロバスト性 / 多椀バンディット問題 / ロバスト化 / クラウドソーシング / 次元削減 / マルチタスク学習 / オンライン学習
研究成果の概要

本研究では,逐次的意思決定および確率的推論の理論とアルゴリズム構築を行った.強化学習の研究では,実用性向上を目指し弱教師付き模倣学習や複雑な問題の階層化などの手法を開発し,その有効性を実験的に示した.多腕バンディット問題の研究では,線形バンディット,比較バンディット,良腕識別,組み合わせバンディットなどに対する理論保証付きアルゴリズムを開発した.確率的推論の研究では,ベイズ推論のロバスト化や近似計算の高速化,および,時間とともに発生する事象のモデル化に関する研究を行い,理論的・実験的に有効性を検証した.

研究成果の学術的意義や社会的意義

逐次的意思決定や確率的推論は,今後の発展が大いに期待される重要な機械学習技術である.本研究では,強化学習や多腕バンディットの適用範囲を拡大する新しいアルゴリズムを開発するとともに,確率的推論のロバスト性向上や近似計算の高速化に関する研究を行った.このような基礎理論的な研究成果は,逐次的意思決定や確率的推論の原理の解明に貢献するものであり,機械学習分野の主要国際会議で学術的に高い評価を受けた.また,開発したアルゴリズムの有効性は計算機実験によって示されており,将来の社会実装につながる社会的意義のある開発であるとも考えられる.

報告書

(6件)
  • 2021 実績報告書   研究成果報告書 ( PDF )
  • 2020 実績報告書
  • 2019 実績報告書
  • 2018 実績報告書
  • 2017 実績報告書
  • 研究成果

    (40件)

すべて 2022 2021 2020 2019 2018 2017 その他

すべて 国際共同研究 (3件) 雑誌論文 (15件) (うち国際共著 4件、 査読あり 15件、 オープンアクセス 9件) 学会発表 (16件) (うち国際学会 15件) 図書 (2件) 備考 (3件) 学会・シンポジウム開催 (1件)

  • [国際共同研究] University of Washington/Georgia Institute of Technology(米国)

    • 関連する報告書
      2021 実績報告書
  • [国際共同研究] TU Darmstadt(Germany)

    • 関連する報告書
      2017 実績報告書
  • [国際共同研究] Data61(Australia)

    • 関連する報告書
      2017 実績報告書
  • [雑誌論文] Discovering diverse solutions in deep reinforcement learning by maximizing state-action-based mutual information.2022

    • 著者名/発表者名
      Osa, T., Tangkaratt, V., & Sugiyama, M.
    • 雑誌名

      Neural Networks

      巻: -

    • 関連する報告書
      2021 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Constraint learning for control tasks with limited duration barrier functions2021

    • 著者名/発表者名
      Ohnishi Motoya、Notomista Gennaro、Sugiyama Masashi、Egerstedt Magnus
    • 雑誌名

      Automatica

      巻: 127 ページ: 109504-109504

    • DOI

      10.1016/j.automatica.2021.109504

    • 関連する報告書
      2021 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] A unified view of likelihood ratio and reparameterization gradients2021

    • 著者名/発表者名
      Parmas, P. & Sugiyama, M.
    • 雑誌名

      Proceedings of 24th International Conference on Artificial Intelligence and Statistics (AISTATS2021)

      巻: - ページ: 4078-4086

    • 関連する報告書
      2021 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Robust imitation learning from noisy demonstrations2021

    • 著者名/発表者名
      Tangkaratt, V., Charoenphakdee, N., & Sugiyama, M.
    • 雑誌名

      Proceedings of 24th International Conference on Artificial Intelligence and Statistics (AISTATS2021)

      巻: - ページ: 298-306

    • 関連する報告書
      2021 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] γ-ABC: Outlier-robust approximate Bayesian computation based on a robust divergence estimator2021

    • 著者名/発表者名
      Fujisawa, M., Teshima, T., Sato, I., & Sugiyama, M.
    • 雑誌名

      Proceedings of 24th International Conference on Artificial Intelligence and Statistics (AISTATS2021)

      巻: - ページ: 1783-1791

    • 関連する報告書
      2021 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Variational imitation learning with diverse-quality demonstrations.2020

    • 著者名/発表者名
      Tangkaratt, V., Han, B., Khan, M. E., & Sugiyama, M.
    • 雑誌名

      Proceedings of 37th International Conference on Machine Learning (ICML2020)

      巻: - ページ: 9407-9417

    • 関連する報告書
      2020 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Polynomial-time algorithms for multiple-arm identification with full-bandit feedback.2020

    • 著者名/発表者名
      Kuroki, Y., Xu, L., Miyauchi, A., Honda, J., & Sugiyama, M.
    • 雑誌名

      Neural Computation

      巻: 32 ページ: 1733-1773

    • 関連する報告書
      2020 実績報告書
    • 査読あり
  • [雑誌論文] Online dense subgraph discovery via blurred-graph feedback.2020

    • 著者名/発表者名
      Kuroki, Y., Miyauchi, A., Honda, J., & Sugiyama, M.
    • 雑誌名

      Proceedings of 37th International Conference on Machine Learning (ICML2020)

      巻: - ページ: 5522-5532

    • 関連する報告書
      2020 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Accelerating the diffusion-based ensemble sampling by non-reversible dynamics.2020

    • 著者名/発表者名
      Futami, F., Sato, I., & Sugiyama, M.
    • 雑誌名

      Proceedings of 37th International Conference on Machine Learning (ICML2020)

      巻: - ページ: 3337-3347

    • 関連する報告書
      2020 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Analysis and design of Thompson sampling for stochastic partial monitoring.2020

    • 著者名/発表者名
      Tsuchiya, T., Honda, J., & Sugiyama, M.
    • 雑誌名

      Advances in Neural Information Processing Systems 33

      巻: - ページ: 8861-8871

    • 関連する報告書
      2020 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Active deep Q-learning with demonstration2020

    • 著者名/発表者名
      Chen, S.-A., Tangkaratt, V., Lin, H.-T., & Sugiyama, M.
    • 雑誌名

      Machine Learning, to appear

      巻: -

    • 関連する報告書
      2019 実績報告書
    • 査読あり / 国際共著
  • [雑誌論文] Good arm identification via bandit feedback2019

    • 著者名/発表者名
      Kano, H., Honda, J., Sakamaki, K., Matsuura, K., Nakamura, A., & Sugiyama, M.
    • 雑誌名

      Machine Learning

      巻: 108 ページ: 721-745

    • 関連する報告書
      2019 実績報告書
    • 査読あり
  • [雑誌論文] Hierarchical reinforcement learning via advantage-weighted information maximization2019

    • 著者名/発表者名
      Osa, T., Tangkaratt, V., & Sugiyama, M.
    • 雑誌名

      Proceedings of Seventh International Conference on Learning Representations (ICLR2019)

      巻: -

    • 関連する報告書
      2019 実績報告書
    • 査読あり
  • [雑誌論文] Imitation learning from imperfect demonstration2019

    • 著者名/発表者名
      Wu, Y.-H., Charoenphakdee, N., Bao, H., Tangkaratt, V., & Sugiyama, M.
    • 雑誌名

      Proceedings of 36th International Conference on Machine Learning (ICML2019)

      巻: - ページ: 6818-6827

    • 関連する報告書
      2019 実績報告書
    • 査読あり / 国際共著
  • [雑誌論文] Good arm identification via bandit feedback.2019

    • 著者名/発表者名
      Kano, H., Honda, J., Sakamaki, K., Matsuura, K., Nakamura, A., & Sugiyama, M.
    • 雑誌名

      Machine Learning

      巻: -

    • 関連する報告書
      2018 実績報告書
    • 査読あり
  • [学会発表] Bayesian posterior approximation via greedy particle optimization.2019

    • 著者名/発表者名
      Futami, F., Cui, Z., Sato, I., & Sugiyama, M.
    • 学会等名
      AAAI Conference on Artificial Intelligence (AAAI2019)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Dueling bandits with qualitative feedback.2019

    • 著者名/発表者名
      Xu, L., Honda, J., & Sugiyama, M.
    • 学会等名
      AAAI Conference on Artificial Intelligence (AAAI2019)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Fully adaptive algorithm for pure exploration in linear bandits.2018

    • 著者名/発表者名
      Xu, L., Honda, J., & Sugiyama, M.
    • 学会等名
      International Conference on Artificial Intelligence and Statistics (AISTATS2018)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Bayesian nonparametric Poisson-process allocation for time-sequence modeling.2018

    • 著者名/発表者名
      Ding, H., Khan, M. E., Sato, I., & Sugiyama, M.
    • 学会等名
      International Conference on Artificial Intelligence and Statistics (AISTATS2018)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Guide actor-critic for continuous control.2018

    • 著者名/発表者名
      Tangkaratt, V., Abdolmaleki, A., & Sugiyama, M.
    • 学会等名
      International Conference on Learning Representations (ICLR2018)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Analysis of minimax error rate for crowdsourcing and its application to worker clustering model.2018

    • 著者名/発表者名
      Imamura, H., Sato, I., & Sugiyama, M.
    • 学会等名
      International Conference on Machine Learning (ICML2018)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Variational inference for Gaussian process with panel count data.2018

    • 著者名/発表者名
      Ding, H., Lee, Y., Sato, I., & Sugiyama, M.
    • 学会等名
      Conference on Uncertainty in Artificial Intelligence (UAI2018)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Continuous-time value function approximation in reproducing kernel Hilbert spaces.2018

    • 著者名/発表者名
      Ohnishi, M., Yukawa, M., Johansson, M., & Sugiyama, M.
    • 学会等名
      Neural Information Processing Systems (NeurIPS2018)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Lipschitz-margin training: Scalable certification of perturbation invariance for deep neural networks.2018

    • 著者名/発表者名
      Tsuzuku, Y., Sato, I., & Sugiyama, M.
    • 学会等名
      Neural Information Processing Systems (NeurIPS2018)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Fully adaptive algorithm for pure exploration in linear bandits2018

    • 著者名/発表者名
      Xu, L., Honda, J., & Sugiyama, M.
    • 学会等名
      International Conference on Artificial Intelligence and Statistics (AISTATS2018)
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Variational inference based on robust divergences2018

    • 著者名/発表者名
      Futami, F., Sato, I., & Sugiyama, M.
    • 学会等名
      International Conference on Artificial Intelligence and Statistics (AISTATS2018)
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Bayesian nonparametric Poisson-process allocation for time-sequence modeling2018

    • 著者名/発表者名
      Ding, H., Khan, M. E., Sato, I., & Sugiyama, M.
    • 学会等名
      International Conference on Artificial Intelligence and Statistics (AISTATS2018)
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Hierarchical policy search via return-weighted density estimation2018

    • 著者名/発表者名
      Osa, T. & Sugiyama, M.
    • 学会等名
      AAAI Conference on Artificial Intelligence (AAAI2018)
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Guide actor-critic for continuous control2018

    • 著者名/発表者名
      Tangkaratt, V., Abdolmaleki, A., & Sugiyama, M.
    • 学会等名
      International Conference on Learning Representations (ICLR2018)
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Good arm identification from bandit feedback2017

    • 著者名/発表者名
      Kano, H., Honda, J., Sakamaki, K., Matsuura, K., Nakamura, A., & Sugiyama, M.
    • 学会等名
      2017 Workshop on Information-Based Induction Sciences (IBIS2017)
    • 関連する報告書
      2017 実績報告書
  • [学会発表] Expectation propagation for t-exponential family using q-algebra2017

    • 著者名/発表者名
      Futami, F., Sato, I., & Sugiyama, M.
    • 学会等名
      Neural Information Processing Systems (NIPS2017)
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [図書] Machine Learning from Weak Supervision: An Empirical Risk Minimization Approach2022

    • 著者名/発表者名
      Masashi Sugiyama, Han Bao, Takashi Ishida, Nan Lu, Tomoya Sakai, and Gang Niu
    • 出版者
      The MIT Press
    • 関連する報告書
      2021 実績報告書
  • [図書] An Algorithmic Perspective on Imitation Learning2018

    • 著者名/発表者名
      Takayuki Osa, Joni Pajarinen, Gerhard Neumann, J. Andrew Bagnell, Pieter Abbeel and Jan Peters
    • 総ページ数
      179
    • 出版者
      Foundations and Trends in Robotics
    • 関連する報告書
      2017 実績報告書
  • [備考] 論文リスト

    • URL

      http://www.ms.k.u-tokyo.ac.jp/sugi/publications.html

    • 関連する報告書
      2021 実績報告書 2020 実績報告書 2019 実績報告書
  • [備考] 杉山将のウェブページ

    • URL

      http://www.ms.k.u-tokyo.ac.jp/sugi/index-jp.html

    • 関連する報告書
      2018 実績報告書
  • [備考] Publications

    • URL

      http://www.ms.k.u-tokyo.ac.jp/sugi/publications.html

    • 関連する報告書
      2017 実績報告書
  • [学会・シンポジウム開催] Tokyo Deep Learning Workshop (TDLW2018)2018

    • 関連する報告書
      2017 実績報告書

URL: 

公開日: 2017-04-28   更新日: 2023-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi