• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実績報告書

統計的強化学習の深化と応用

研究課題

研究課題/領域番号 17H00757
研究機関東京大学

研究代表者

杉山 将  東京大学, 大学院新領域創成科学研究科, 教授 (90334515)

研究期間 (年度) 2017-04-01 – 2022-03-31
キーワード強化学習 / 機械学習 / 多椀バンディット問題 / ロバスト性
研究実績の概要

本年度は,標準的な強化学習法がうまく適用できない困難な状況ーーー例えば,大量にデータを収集することが難しい状況,環境が動的に変化する状況,データに異常値が含まれる状況などーーーでも,実用的に動作する強化学習アルゴリズムの開発を目指し,基礎研究を行なった.特に,複数の方策を適用的に使い分ける階層型の強化学習の新手法,および,価値関数の2次の情報を活用できるactor-critic強化学習の新手法を開発した.そして,これらの手法の有効性を計算機実験によって評価し,従来法を上回る性能が得られることを確認した.
また強化学習の一課題である多椀バンディット問題に対して,報酬が線形の場合の理論保証付き学習アルゴリズム,および,良い腕を効率的に見つけるという新しい定式化に対する理論保証付きの学習アルゴリズムを開発し,それらの有効性を数値実験によって確認した.また,データに異常値が含まれる状況に対するベイズ推論問題に対して,モデルベースのロバスト推論手法,モデルフリーのロバスト推論手法,および,時系列データのノンパラメトリック解析手法を開発し,それらの有効性を数値実験によって確認した.
上記の基礎技術研究に加え,自動車,ドローン,工事車両などの制御や,コンピュータゲーム,オンライン広告配信,医学の臨床試験,複数エージェント交渉,防災などの分野における強化学習の適用可能性について様々な企業や研究機関と議論を行った.

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

既存の強化学習がうまく適用できない困難な状況に対応すべく,新しい枠組みの考案,新しいアルゴリズムの開発,それらに付随する基礎理論解析を多方面に渡って行い,国際的にインパクトのある著名国際会議に多数の論文を発表することができた.
応用の観点からは,多数の企業や研究所から強化学習に関する問い合わせを受けており,既存の応用分野における性能改善だけでなく,強化学習関連技術の新たな応用の可能性を切り開きつつある.
また,強化学習関連分野は世界的に見ても極度な人材不足に苦しんでいるが,本科研費プロジェクトの立ち上げとともに,多数の優秀な若手研究者を確保できており,人材育成の観点からも最高のスタートを切ることができている.

今後の研究の推進方策

引き続き,既存の強化学習がうまく適用できない困難な状況に対応できる新しいアプローチを貪欲に開拓するとともに,強化学習の普及へ向けた新たな応用分野の開拓,人材育成を総合的に進めていく.

  • 研究成果

    (12件)

すべて 2018 2017 その他

すべて 国際共同研究 (2件) 学会発表 (7件) (うち国際学会 6件) 図書 (1件) 備考 (1件) 学会・シンポジウム開催 (1件)

  • [国際共同研究] TU Darmstadt(Germany)

    • 国名
      ドイツ
    • 外国機関名
      TU Darmstadt
  • [国際共同研究] Data61(Australia)

    • 国名
      オーストラリア
    • 外国機関名
      Data61
  • [学会発表] Fully adaptive algorithm for pure exploration in linear bandits2018

    • 著者名/発表者名
      Xu, L., Honda, J., & Sugiyama, M.
    • 学会等名
      International Conference on Artificial Intelligence and Statistics (AISTATS2018)
    • 国際学会
  • [学会発表] Variational inference based on robust divergences2018

    • 著者名/発表者名
      Futami, F., Sato, I., & Sugiyama, M.
    • 学会等名
      International Conference on Artificial Intelligence and Statistics (AISTATS2018)
    • 国際学会
  • [学会発表] Bayesian nonparametric Poisson-process allocation for time-sequence modeling2018

    • 著者名/発表者名
      Ding, H., Khan, M. E., Sato, I., & Sugiyama, M.
    • 学会等名
      International Conference on Artificial Intelligence and Statistics (AISTATS2018)
    • 国際学会
  • [学会発表] Hierarchical policy search via return-weighted density estimation2018

    • 著者名/発表者名
      Osa, T. & Sugiyama, M.
    • 学会等名
      AAAI Conference on Artificial Intelligence (AAAI2018)
    • 国際学会
  • [学会発表] Guide actor-critic for continuous control2018

    • 著者名/発表者名
      Tangkaratt, V., Abdolmaleki, A., & Sugiyama, M.
    • 学会等名
      International Conference on Learning Representations (ICLR2018)
    • 国際学会
  • [学会発表] Good arm identification from bandit feedback2017

    • 著者名/発表者名
      Kano, H., Honda, J., Sakamaki, K., Matsuura, K., Nakamura, A., & Sugiyama, M.
    • 学会等名
      2017 Workshop on Information-Based Induction Sciences (IBIS2017)
  • [学会発表] Expectation propagation for t-exponential family using q-algebra2017

    • 著者名/発表者名
      Futami, F., Sato, I., & Sugiyama, M.
    • 学会等名
      Neural Information Processing Systems (NIPS2017)
    • 国際学会
  • [図書] An Algorithmic Perspective on Imitation Learning2018

    • 著者名/発表者名
      Takayuki Osa, Joni Pajarinen, Gerhard Neumann, J. Andrew Bagnell, Pieter Abbeel and Jan Peters
    • 総ページ数
      179
    • 出版者
      Foundations and Trends in Robotics
  • [備考] Publications

    • URL

      http://www.ms.k.u-tokyo.ac.jp/sugi/publications.html

  • [学会・シンポジウム開催] Tokyo Deep Learning Workshop (TDLW2018)2018

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi