2020 Fiscal Year Annual Research Report

エビデンスに基づいた政策形成における、バンディット問題の応用

Research Project

Project/Area Number	19J20984
Research Institution	Kyoto University
Principal Investigator	木戸大道京都大学, 経済学研究科, 特別研究員(DC1)
Project Period (FY)	2019-04-25 – 2022-03-31
Keywords	因果推論 / 政策学習
Outline of Annual Research Achievements	本年度は政策学習における転移学習の応用について研究した．既存の政策学習に関する研究では，データが得られる分布と，そのデータから推定された政策が評価される分布が同じであるという仮定のもと，推定手法の性能を評価してきた．しかしながら，実際の政策現場においては，必ずしも上記の仮定が成り立つとは限らない．これらの問題を解決する最も簡単な方法は，政策を適用したい分布から新たにデータを得ることである．ただ，このデータはUnconfoundednessと呼ばれる仮定を満たしていなければならない．この仮定を満たすデータを得るには，新たな無作為比較試験を行うことが最も簡単で妥当な手法となるのだが，十分な標本サイズの無作為比較試験は非常にコストがかかり実施するのが難しい場合がしばしばある．したがって，新たなデータを得ることなく，既存のデータのみを用いてこれらの問題を解決できないであろうか．転移学習と呼ばれる分野は，上記のような例を動機として発展してきた．従来の分類問題では，データが生成される分布と学習された分類器が適用される分布が同一であるという仮定のもと，汎化誤差の上界を理論的に導出して，推定手法の性能を評価してきた．転移学習では，その仮定を緩めた場合に既存の推定手法がどのような性能を持つのかを評価するとともに，既存の推定手法を調整して新たな推定手法を提案してきた．政策学習の問題は分類問題と非常に似た性質を持っているため，転移学習の知見を活かすことができる．本年度は，データが得られる分布と推定された分布が同じであるという仮定を外したもとで，既存の政策手法がどのような性能を持つのか理論的に評価した．具体的には厚生リグレットと呼ばれる指標の上界を導出した．その結果，転移学習で得られている結果と同様に，既存の政策手法の性能はデータが得られる分布と推定された分布の距離に依存することがわかった．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 申請時に予定していた研究テーマは，異時点間で分布が変わるという状況設定でデータが連続的に観察できる場合に，政策を最適化するにはどうすればよいかであった．しかしながら継続して文献を探していく中で，機械学習で研究されている一分野の中に，訓練データとトレーニングデータが異なる分布を持つ場合を研究するものがあることに気が付いた．この分野では，データが連続的に得られるようという設定までは拡張せず，むしろデータが一括で得られる場合を考える．この状況設定は，当初予定していたものよりも実際の制作現場で重要であり，かつ，こちらの状況設定を考えてから，連続的にデータが得られる場合に拡張すべきだと気が付いた．それゆえ当初の研究スケジュールから逸脱することとなった．
Strategy for Future Research Activity	本年度も継続して転移学習を応用することを研究する．データが一括で得られるという設定のもとでの研究が一段落したら，データが連続的に得られる場合に拡張する予定である．