研究課題
本年度は,標準的な強化学習法がうまく適用できない困難な状況ーーー例えば,大量にデータを収集することが難しい状況,環境が動的に変化する状況,データに異常値が含まれる状況などーーーでも,実用的に動作する強化学習アルゴリズムの開発を目指し,基礎研究を行なった.特に,複数の方策を適用的に使い分ける階層型の強化学習の新手法,および,価値関数の2次の情報を活用できるactor-critic強化学習の新手法を開発した.そして,これらの手法の有効性を計算機実験によって評価し,従来法を上回る性能が得られることを確認した.また強化学習の一課題である多椀バンディット問題に対して,報酬が線形の場合の理論保証付き学習アルゴリズム,および,良い腕を効率的に見つけるという新しい定式化に対する理論保証付きの学習アルゴリズムを開発し,それらの有効性を数値実験によって確認した.また,データに異常値が含まれる状況に対するベイズ推論問題に対して,モデルベースのロバスト推論手法,モデルフリーのロバスト推論手法,および,時系列データのノンパラメトリック解析手法を開発し,それらの有効性を数値実験によって確認した.上記の基礎技術研究に加え,自動車,ドローン,工事車両などの制御や,コンピュータゲーム,オンライン広告配信,医学の臨床試験,複数エージェント交渉,防災などの分野における強化学習の適用可能性について様々な企業や研究機関と議論を行った.
1: 当初の計画以上に進展している
既存の強化学習がうまく適用できない困難な状況に対応すべく,新しい枠組みの考案,新しいアルゴリズムの開発,それらに付随する基礎理論解析を多方面に渡って行い,国際的にインパクトのある著名国際会議に多数の論文を発表することができた.応用の観点からは,多数の企業や研究所から強化学習に関する問い合わせを受けており,既存の応用分野における性能改善だけでなく,強化学習関連技術の新たな応用の可能性を切り開きつつある.また,強化学習関連分野は世界的に見ても極度な人材不足に苦しんでいるが,本科研費プロジェクトの立ち上げとともに,多数の優秀な若手研究者を確保できており,人材育成の観点からも最高のスタートを切ることができている.
引き続き,既存の強化学習がうまく適用できない困難な状況に対応できる新しいアプローチを貪欲に開拓するとともに,強化学習の普及へ向けた新たな応用分野の開拓,人材育成を総合的に進めていく.
すべて 2018 2017 その他
すべて 国際共同研究 (2件) 学会発表 (7件) (うち国際学会 6件) 図書 (1件) 備考 (1件) 学会・シンポジウム開催 (1件)
http://www.ms.k.u-tokyo.ac.jp/sugi/publications.html