データの低品質性を考慮したデータ解析手法の開発と体系化
Project/Area Number |
21K11796
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60030:Statistical science-related
|
Research Institution | Waseda University |
Principal Investigator |
須子 統太 早稲田大学, 社会科学総合学術院, 准教授 (40409660)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 選択バイアス / 統計的決定理論 / 不良回答 / アンケートデータ / 低品質データ / ラベルノイズ |
Outline of Research at the Start |
本研究では,低品質なデータからでも有用な知識を抽出する事ができる新しい分析手法を開発するとともに,様々な分析手法を体系化することで,低品質データの統合的な扱い方を明らかにすることを目的とする.具体的には,「統計的決定理論に基づく選択バイアス補正手法の開発」,「不良回答を含むアンケートデータの分析手法の確立」,「データ劣化過程の統合モデルの開発と体系化」を行う.
|
Outline of Annual Research Achievements |
本研究では,所謂ビッグデータにおけるデータの低品質性に着目し,低品質データからでも有用な知識を抽出する事ができる新しい分析手法を開発するとともに,様々な分析手法を体系化することで低品質データの統合的な扱い方を明らかにすることを目的としている.具体的には「目的A.統計的決定理論に基づく選択バイアス補正手法の開発」「目的B.不良回答を含むアンケートデータの分析手法の確立」「目的C.データ劣化過程の統合モデルの開発と体系化」という3つの目的に対する研究を進めていく.2023年度は目的AおよびBについて研究を実施した. 目的A:選択バイアスの補正手法について,傾向スコア法や回帰モデル法など様々なアルゴリズムが提案されている.しかし,万能な補正アルゴリズムはなく,データによって補正精度の高いアルゴリズムが異なる事が実験的に示されている.そこで,選択バイアス発生のモデルを明確に定義することで,統計的決定理論に基づきベイズ最適な選択バイアス補正手法の開発を目指した.2022年度までは、統計的決定理論に基づいた理論的なフレームワークを構築し,選択バイアス補正問題に対する理論的な最適戦略を明らかにし,人工データを用いた最適戦略のバイアス補正性能に関する評価実験を行い論文にまとめた.2023年度にはこの成果を拡張し,ロジスティック回帰モデルを用いた理論的な最適戦略とその近似アルゴリズムの開発を行った. 目的B:不良回答が混入したアンケートに対する分析手法の開発を目的としている.2022年度までは,アンケートに追加の設問を付与することで不良回答を検出する手法に関する理論的な検出精度の導出に関する研究を行った.2023年度はこれらの成果発展させ,一般的な状況下における不良回答検出確率の導出法のフレームワークを構築し,その内容をまとめ論文投稿を行った.論文については現在査読中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2023年度は2022年度に引き続き,目的Aと目的Bについて並行して研究を進めた.目的Aについては2022年度までに完成させた統計的決定理論に基づく選択バイアス補正手法の基本的なフレームワークをもとに新しい補正手法を提案するなど発展的な内容を推進できた.また,目的Bについては前年度までの成果を更に発展させ統一的なフレームワークの構築を行い,その内容について論文投稿まで進めることができた.これらは当初計画を以上の成果である一方,目的Cについては十分な進捗が得られなかった.以上より,総合して概ね順調に進展していると考えている.ただし,論文の査読が継続中につき,査読結果次第で内容の修正,ブラッシュアップが必要であることを踏まえ研究期間を延長した.
|
Strategy for Future Research Activity |
今年度は,目的Bの成果の論文化を進めることと,目的Cに関する研究を推進することを中心に進める.具体的には,現在投稿中である目的Bにおける任意の選択肢を持つアンケートにおける不良回答の検出確率の理論評価に対する論文を完成させるとともに,可能であれば更に内容の発展について検討したい.また,目的Cについては,目的A,Bの成果で得た知見を活かし,データの劣化課程の統合モデルの構築を目指す.さらに,余力があれば目的Aにおける選択バイアス補正法のさらなる発展も検討したい.
|
Report
(3 results)
Research Products
(10 results)