近年,行政機関や企業が所有する統計データなどをインターネット上で公開し,それらを関連付けて利用するオープンデータの取組みが推進されている.統一的なデータ管理主体が存在せず,分散的かつ不均一なオープンデータの分析は,現在の計算機による自動処理だけでは困難であり,様々な場面で人手による作業が不可欠である.一方近年,インターネット上で不特定多数に仕事を依頼できるクラウドソーシングの活用が進んでいる.本研究では,クラウドソーシングによって多くの人々の能力を活用してオープンデータの分析を行うための基盤技術の研究を行った.とくに,データ分析の結果を意思決定に用いる際には相関関係と因果関係を区別することが重要であるが,データから因果関係を推定するこれまでの研究の多くでは,交絡因子と呼ばれる因果関係に影響する変数は,観測データの中に含まれているという仮説を置いていた.しかし,オープンデータの環境においては,事前に全ての関連するデータを取得して分析することは困難である.そこで,交絡変数の可能性があるデータを随時取得していく,探索的なデータ分析を行うフレームワークを提案した.相関が観測される変数の組に対して,クラウドソーシングでその理由についての説明を募集し,得られた説明文から交絡因子の可能性がある変数の候補を抽出した.オープンデータから取得した観測データに対して,内在次元推定の方法を用いて交絡因子の可能性がある変数を絞り込み,さらに既存の因果分析の方法を組み合わせて,因果関係の有無や方向を推定した.世界銀行および日本政府のオープンデータを対象とした実験を行い,提案手法の評価を行った.
|