本年度は政策学習の文脈において,利用可能な実験データを生成する母集団(以下,この母集団のことを「ソース母集団」という)が政策を適用したい母集団(以下,この母集団のことを「ターゲット母集団」という)とは異なる場合に,何を目標にどのように政策を学習すればよいかについて研究を行った.この問題は因果推論の文脈においては外的妥当性の問題として認知されており,追加的な強い仮定なしにはターゲット母集団の平均介入効果を識別・推定できないことが知られている.政策学習においても同様の問題が生じ,ターゲット母集団の平均厚生を最大化する最適な政策を識別・推定することができない. そこで本年度の研究では,「Distributionally Robust Optimization」のアイデアを援用し,ソース母集団とターゲット母集団が分布間の距離の意味で一定程度近くに存在するという仮定の下,最悪の場合の平均厚生を最大化するという手法を提案した.これは,ターゲット母集団において最適な政策を求めるというゴールを動かすことを意味する.この修正により,従来の研究で課されてきた追加的な仮定を置かずに意味のある政策を学習することが可能となる.本研究では,このような政策の推定手法を提案するとともに,その理論的性質を導出した.また,職業訓練プログラムに関する実験データを用いて,この手法が実証的にも有用であることを示した.
|