2021 Fiscal Year Research-status Report
データの低品質性を考慮したデータ解析手法の開発と体系化
Project/Area Number |
21K11796
|
Research Institution | Waseda University |
Principal Investigator |
須子 統太 早稲田大学, 社会科学総合学術院, 准教授 (40409660)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 選択バイアス / 統計的決定理論 / 不良回答 / アンケートデータ |
Outline of Annual Research Achievements |
本研究では,所謂ビッグデータにおけるデータの低品質性に着目し,低品質データからでも有用な知識を抽出する事ができる新しい分析手法を開発するとともに,様々な分析手法を体系化することで低品質データの統合的な扱い方を明らかにすることを目的としている.具体的には「目的A.統計的決定理論に基づく選択バイアス補正手法の開発」「目的B.不良回答を含むアンケートデータの分析手法の確立」「目的C.データ劣化過程の統合モデルの開発と体系化」という3つの目的に対する研究を進めていく.2021年度は目的AおよびBについて研究を実施した. 目的A:選択バイアスの補正手法について,傾向スコア法や回帰モデル法など様々なアルゴリズムが提案されている.しかし,万能な補正アルゴリズムはなく,データによって補正精度の高いアルゴリズムが異なる事が実験的に示されている.そこで,選択バイアス発生のモデルを明確に定義することで,統計的決定理論に基づく最適な選択バイアス補正手法の提案を目的としている.2021年度は統計的決定理論に基づいた理論的なフレームワークを構築し,選択バイアス補正問題に対する理論的な最適戦略を明らかにした.また,人工データを用いた最適戦略のバイアス補正性能に関する評価実験を行った.この成果については国内学会にて発表を行い,同内容について現在論文投稿中である. 目的B:不良回答が混入したアンケートに対する分析手法の開発を目的としている.2021年度は,アンケートに追加の設問を付与することで不良回答を検出する手法に関する理論的な検出精度の導出に関する研究を行った.本研究では一般的な設問の追加方法と不良回答混入モデルを提案することで,様々な状況における理論的な不良回答検出確率を導出した.これらの成果について国内学会での発表を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画では2021年度は目的Aについてのみ研究を進める計画であったが,予定を変更し目的Aと目的Bについて並行して研究を進めたが,これは当初想定していた範囲内の変更である.目的Aについては統計的決定理論に基づく選択バイアス補正手法の基本的なフレームワークは完成しており順調に進展していると考えられる.また,目的Bについて不良回答の発生確率が未知の場合の分布推定の検討が難しい事が分かり,別の方策として不良回答を検出する設問を追加する戦略に関する理論的なフレームワークを構築できた.当初計画とは厳密には異なるが,解決すべき問題に対するアプローチの変更であり全体的には順調に進展していると考えられる.
|
Strategy for Future Research Activity |
当初予定では,2021年度が目的A,2022年度は目的Bを進める計画であったが,前述の通り目的AおよびBを並行して実施する方針に変更している.2022年度についてはこの流れを継続し,目的AおよびBについて継続して研究を進め,内容の充実および深化を目指す.目的Aについては,選択バイアス補正に関する基本的なフレームワークを発展させ,様々なデータ形態に対する具体的な補正アルゴリズムの構築と実データに対する性能評価を進める.目的Bについては,2021年度に提案した不良回答検出のための追加設問とその検出確率を利用することで,正確な不良回答混入確率を逆算する手法を提案するとともに,最尤推定を用いた回答分布推定手法を開発する.
|
Causes of Carryover |
コロナ禍の影響により旅費の支出が無くなったことで当初計画より余剰が発生した.繰越分については2022年度の旅費および実験用ワークステーション等の設備充実に活用する.
|
Research Products
(2 results)