本年度は,通常のバンディット問題の拡張として,目標をなるべく早く達成するにはどのように探索し,知識利用を行えばよいかという問題について研究した. 通常のバンディット問題では,アームを引く数が最初から所与とされており,そのもとで累積報酬を最大化するように探索と知識利用を行う.しかしながら現実問題の中では,目標の累積報酬が所与とされており,それにできるだけ早く到達したいと考える問題も存在しうる.このような状況は,通常のバンディット問題で扱うモデルとは異なり,したがって既存のアルゴリズムがうまく機能するのかはわからず,このモデルのもとでもう一度分析する必要がある. この問題は二通りの定式化が考えられる.一つ目は,累積報酬が目標額を超える確率がある閾値を超えるという制約のもとで,アームを引く数を最小化したいという問題である.もう一つは,累積報酬が目標額に到達する平均的なタイミングを最小化したいという問題である. 本年度は,一つ目の定式化に関して研究を行った.そして,もし各アームの成功確率がわかっているのであれば,一番成功確率の高いアームを引き続けることが最適であることを示した.また,各アームの成功確率はわからないというもとで,今後の分析のベースラインとなるアルゴリズムを構築した.そして,そのベースラインのアルゴリズムの理論的性能評価,およびシミュレーションによる性能評価を行った.
|