2021 年度研究成果報告書

統計的強化学習の深化と応用

研究課題

PDF

研究課題/領域番号	17H00757
研究種目	基盤研究(A)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	東京大学
研究代表者	杉山将東京大学, 大学院新領域創成科学研究科, 教授 (90334515)
研究期間 (年度)	2017-04-01 – 2022-03-31
キーワード	強化学習 / 機械学習 / 多腕バンディット問題 / 模倣学習 / ベイズ推論 / ロバスト性
研究成果の概要	本研究では，逐次的意思決定および確率的推論の理論とアルゴリズム構築を行った．強化学習の研究では，実用性向上を目指し弱教師付き模倣学習や複雑な問題の階層化などの手法を開発し，その有効性を実験的に示した．多腕バンディット問題の研究では，線形バンディット，比較バンディット，良腕識別，組み合わせバンディットなどに対する理論保証付きアルゴリズムを開発した．確率的推論の研究では，ベイズ推論のロバスト化や近似計算の高速化，および，時間とともに発生する事象のモデル化に関する研究を行い，理論的・実験的に有効性を検証した．
自由記述の分野	知能情報学
研究成果の学術的意義や社会的意義	逐次的意思決定や確率的推論は，今後の発展が大いに期待される重要な機械学習技術である．本研究では，強化学習や多腕バンディットの適用範囲を拡大する新しいアルゴリズムを開発するとともに，確率的推論のロバスト性向上や近似計算の高速化に関する研究を行った．このような基礎理論的な研究成果は，逐次的意思決定や確率的推論の原理の解明に貢献するものであり，機械学習分野の主要国際会議で学術的に高い評価を受けた．また，開発したアルゴリズムの有効性は計算機実験によって示されており，将来の社会実装につながる社会的意義のある開発であるとも考えられる．