2019 Fiscal Year Annual Research Report

エビデンスに基づいた政策形成における、バンディット問題の応用

Research Project

Project/Area Number	19J20984
Research Institution	Kyoto University
Principal Investigator	木戸大道京都大学, 経済学研究科, 特別研究員(DC1)
Project Period (FY)	2019-04-25 – 2022-03-31
Keywords	バンディット問題 / EBPM
Outline of Annual Research Achievements	本年度は，通常のバンディット問題の拡張として，目標をなるべく早く達成するにはどのように探索し，知識利用を行えばよいかという問題について研究した．通常のバンディット問題では，アームを引く数が最初から所与とされており，そのもとで累積報酬を最大化するように探索と知識利用を行う．しかしながら現実問題の中では，目標の累積報酬が所与とされており，それにできるだけ早く到達したいと考える問題も存在しうる．このような状況は，通常のバンディット問題で扱うモデルとは異なり，したがって既存のアルゴリズムがうまく機能するのかはわからず，このモデルのもとでもう一度分析する必要がある．この問題は二通りの定式化が考えられる．一つ目は，累積報酬が目標額を超える確率がある閾値を超えるという制約のもとで，アームを引く数を最小化したいという問題である．もう一つは，累積報酬が目標額に到達する平均的なタイミングを最小化したいという問題である．本年度は，一つ目の定式化に関して研究を行った．そして，もし各アームの成功確率がわかっているのであれば，一番成功確率の高いアームを引き続けることが最適であることを示した．また，各アームの成功確率はわからないというもとで，今後の分析のベースラインとなるアルゴリズムを構築した．そして，そのベースラインのアルゴリズムの理論的性能評価，およびシミュレーションによる性能評価を行った．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初の計画通り，実際の政策現場で発生しうる問題に対し，順調に理論的考察を進めることができた．しかしながら，学会発表まで至ることはできなかったため，（２）とした．
Strategy for Future Research Activity	昨年度に研究を進めた定式化に関し，今後も研究をする予定である．具体的には，ベースラインのアルゴリズムよりも理論的観点から望ましいと考えられるアルゴリズムを構築する．また，もう一つの定式化に関しても並行して研究をし，最終的には，二つの定式化それぞれで望ましいと思われるアルゴリズムを比較する．