2021 年度実績報告書

線形バンディット問題における実用的アルゴリズムの構築

研究課題

研究課題/領域番号	21J21272
配分区分	補助金
研究機関	京都大学
研究代表者	土屋平京都大学, 情報学研究科, 特別研究員(DC1)
研究期間 (年度)	2021-04-28 – 2024-03-31
キーワード	機械学習 / バンディット問題
研究実績の概要	本年度の研究では，ノイズなどにより背後にあるモデルが仮定したモデルと異なる場合においても頑健に動くバンディットアルゴリズムの構築を目指して研究をおこなった．バンディット問題には，各アームの報酬が定常な確率分布に従う確率的バンディットの設定の他に，各アームの報酬が各時刻で有界な任意の値をとる敵対的バンディットと呼ばれる設定がある．確率的環境を仮定するのは非常に条件が強く，現実的な利用場面では，観測にノイズがのる，背後の分布が時刻変化する，などの要因によりこの仮定が満たされないことが多い．実際に，確率的環境に特化したアルゴリズムは，このような設定で性能が大きく低下することがあることが，理論的及び実験的に知られている．一方で，敵対的環境を仮定したアルゴリズムは，非常に悲観的に動作し，簡単な問題において，性能が実用的ではない場合が多い．これらの問題を解決するために近年Tsallis-INF アルゴリズムが考案された．Tsallis-INF アルゴリズムは，確率的環境と敵対的環境の両方で最適性を達成するアルゴリズムである．しかし，どのような条件下でアルゴリズムが確率的環境で良い性能を持ちつつ敵対的環境においても頑健に動作するのかについては十分知られていない．そこで，本年度の研究では，確率的環境において各アームの推定期待報酬を，確率的微分方程式の枠組みで定式化することで，アルゴリズムが頑健であるための条件の調査をおこなった．具体的には，単純化したTsallis-INFアルゴリズムに対して，対応する確率微分方程式を考えた．それを用いて，理論的側面からの解析をおこない，この単純化された設定では，各アームの推定期待報酬が特定の分布に分布収束し，結果として試行回数の意味での最適オーダを達成できることを確認できた．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由解析の過程で，バンディットアルゴリズムが確率的環境においても良い性能おを持ちつつ，敵対的環境においても頑健に動作するための条件についての知見が得られた．さらに，その解析を通して，他のバンディット問題の設定においても適用可能な条件についての知見が得られた．一方で，現状利用可能なアルゴリズムの適用可能な範囲は基本的な多腕バンディット問題の設定に限定されており，解析を通じて得た知見をもとにより一般化された実用的な設定におけるアルゴリズムの構築が望まれる
今後の研究の推進方策	本年度の研究結果により，確率的環境においても良い性能を持ち，敵対的環境においても頑健に動作するアルゴリズムについての数理的知見を得ることができた．来年度以降の研究では，本年度の研究で得られた知見をもとに，最も基本的なモデルである多腕バンディットのモデルから，より複雑な問題設定において適用可能範囲を広げることを目指す．具体的には，報酬の期待値が特徴量に対して線形に依存するモデルである線形バンディット問題や，直接的な報酬の値ではなく間接的なフィードバック値が得られる部分観測問題と呼ばれるより現実の問題に近い問題設定を対象とし，これらの設定において確率的環境だけではなく敵対的環境においても高性能で動作するアルゴリズムを構成することを目指す．