2022 Fiscal Year Research-status Report
データの低品質性を考慮したデータ解析手法の開発と体系化
Project/Area Number |
21K11796
|
Research Institution | Waseda University |
Principal Investigator |
須子 統太 早稲田大学, 社会科学総合学術院, 准教授 (40409660)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 選択バイアス / 統計的決定理論 / 不良回答 / アンケートデータ |
Outline of Annual Research Achievements |
本研究では,所謂ビッグデータにおけるデータの低品質性に着目し,低品質データからでも有用な知識を抽出する事ができる新しい分析手法を開発するとともに,様々な分析手法を体系化することで低品質データの統合的な扱い方を明らかにすることを目的としている.具体的には「目的A.統計的決定理論に基づく選択バイアス補正手法の開発」「目的B.不良回答を含むアンケートデータの分析手法の確立」「目的C.データ劣化過程の統合モデルの開発と体系化」という3つの目的に対する研究を進めていく.2022年度は目的AおよびBについて研究を実施した. 目的A:選択バイアスの補正手法について,傾向スコア法や回帰モデル法など様々なアルゴリズムが提案されている.しかし,万能な補正アルゴリズムはなく,データによって補正精度の高いアルゴリズムが異なる事が実験的に示されている.そこで,選択バイアス発生のモデルを明確に定義することで,統計的決定理論に基づきベイズ最適な選択バイアス補正手法の開発を目指した.2021年度には、統計的決定理論に基づいた理論的なフレームワークを構築し,選択バイアス補正問題に対する理論的な最適戦略を明らかにした.また,人工データを用いた最適戦略のバイアス補正性能に関する評価実験を行った.2022年度はこれらの内容をより精緻化し論文にまとめ投稿し再録された. 目的B:不良回答が混入したアンケートに対する分析手法の開発を目的としている.2021年度に,アンケートに追加の設問を付与することで不良回答を検出する手法に関する理論的な検出精度の導出に関する研究を行った.2022年度は,この研究を発展させ前年度より一般的な条件における,不良回答混入モデルの提案と不良回答検出確率を理論的に導出した.これらの成果について国内学会での発表を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2022年度は2021年度に引き続き,目的Aと目的Bについて並行して研究を進めた.目的Aについては統計的決定理論に基づく選択バイアス補正手法の基本的なフレームワークは完成させ論文化まで進められた.また,目的Bについては前年度の成果を発展させることができ順調に研究が進んでいる.以上より.当初計画通りの進捗であると言える.
|
Strategy for Future Research Activity |
当初計画では,2021年と2022年で目的Aと目的Bを完成させ,2023年度に目的Cに着手する予定であった.前述の通り,目的A,Bについては概ね計画通りに一定の成果はでたが,研究を進めるにあたり両目的について更なる課題とその解決の可能性が出てきた.そこで2023年度では,目的Cの着手と平行して,目的AとBを更に発展させる研究も行う.具体的には,目的Aの研究で開発した統計的決定理論に基づくベイズ最適な選択バイアス補正手法は,ある限定された条件の場合,懐石的に最適解を求める事ができるが,それ以外の一般的な状況では解析的な計算ができず何らかの近似計算が必要となることが分かった.そこで,いくつかの現実的な状況において精度の高い近似計算アルゴリズムの開発を新たに目指す.目的Bについては,2021年度と2022年度の2年間で,アンケートの選択肢数が限定された状況における不良回答検出率の理論評価を行ったが,これらの成果を任意のアンケート選択肢数に一般化できる可能性がでてきた.そこで本年度は2022年度までの成果の一般化を行い,その結果を論文にまとめる計画である.
|
Causes of Carryover |
コロナ禍の影響により旅費の支出が無くなったことで当初計画より余剰が発生した.繰越分については2023年度の旅費および消耗品費に活用する.
|