研究概要 |
実験等で得られる数値データから,データに含まれる観測変数間の影響関係を推定することは,その応用上非常に重要である.一例としては,マーケティングにおける価格と商品の売れ行きなどが挙げられる.本研究では,大規模化に伴って一部変数の情報が欠損したデータからの因果推論を目的としている.そこで,今年度は,欠損有りデータと欠損無しデータを同時に活用し,より高精度かつノイズに対してロバストに特定変数間の影響関係を推定する手法の提案を行った.ここで,この欠損は一定のコストをかけることで人手もしくは実験によってデータが修復可能なものであることと仮定され,欠損有りデータ内のサンプルはラベルなしサンプル,欠損なしデータ内のサンプルはラベル有りサンプルと呼ばれる.通常の影響関係推定法では,ラベル有りデータのみからしか,特定変数間の関係を推定することができない.一方で,本研究で取り扱った能動学習と呼ばれる枠組みでは,ラベル有りデータを元に,ラベルなしサンプルのうちラベル有りサンプルへと修復(ラベル付け)することで最も推定精度の向上が期待されるサンプルを選択し,効率的な学習を可能にする.この枠組みにおいて従来法ではラベル付けは必ず正しいことが仮定されていたが,この仮定は現実的ではなかった.そこで,本研究では,Density Power Divergenceと呼ばれるラベル付けの誤りに対してもロバストに機能する統計的指標を導入した.これにより,ロバストに機能する能動学習を提案し,そのロバスト性を人工データならびに実データを用いた数値実験により評価を行った.この手法により,特定の形式での欠損を含むデータを活用することで,特定変数間の影響関係を高精度に推定可能な手法が実現された.
|