研究課題/領域番号 |
18J23034
|
研究機関 | 東京大学 |
研究代表者 |
黒木 祐子 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2018-04-25 – 2021-03-31
|
キーワード | 強化学習 / 多腕バンディット問題 / 近似アルゴリズム / 組合せバンディット / 最適腕識別問題 / グラフマイニング |
研究実績の概要 |
昨年に引き続き組合せバンディットと呼ばれる多腕バンディット問題において複数の腕に対する組合せ構造が与えられた場合の問題に関する研究を行った.多くの既存研究がUpper Confidence Bound Algorithmと呼ばれる,楕円型信頼区間が最大になる腕を計算するアルゴリズムを設計していたが,組合せ構造を持つアクション空間を考える場合,この計算に指数時間かかってしまう問題があった.本研究では多項式時間の近似アルゴリズムを設計することで楕円型信頼区間が最大になる集合を効率的に求めることに成功し,新しいバンディットアルゴリズムと最適な集合を求めるのに必要なサンプル数の上界を理論的に与えた.この研究成果は機械学習分野の主要な国際ジャーナルであるNeural Computationに採択された. さらに報酬関数が非線形な場合への拡張として,古典的な最適化問題の一つであるThe Densest Subgraph Problem (最密部分グラフの抽出)のバンディット設定での問題を考え,サンプル数の上限が与えられている場合と,求める出力の精度が与えられている場合の両方の設定に対して,多項式時間アルゴリズムの設計と理論保証を与えた.実グラフにおける計算機実験では,限れたフィードバックのみからでも高速かつ高精度な密グラフを抽出できることを示した.この結果は機械学習の主要な国際会議であるICML2020に採択済みである.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
限れた観測に基づく組合せ最適腕識別研究に対する,統計的および計算量的に効率の良い手法の開発は当該分野に新しい知見を与えた.機械学習分野の主要ジャーナルであるNeural Computationや分野の難関国際会議ICML2020に論文が採択されるなど,国際的にインパクトを与える研究結果を得ることができた.
|
今後の研究の推進方策 |
今後はより一般的な非線形関数をもつ報酬の場合に関する手法の開発に取り組む予定である.さらに,標本複雑度の最悪インスタンスへの依存を軽減するロバストな手法にも取り組む予定である.
|