2020 Fiscal Year Annual Research Report
Development of a new data cleaning method for questionnaires used in large cohorts
Project/Area Number |
18K10099
|
Research Institution | Tohoku University |
Principal Investigator |
牧野 悟士 東北大学, 東北メディカル・メガバンク機構, 助教 (30423403)
|
Co-Investigator(Kenkyū-buntansha) |
田宮 元 東北大学, 東北メディカル・メガバンク機構, 教授 (10317745)
櫻井 利恵子 東北大学, 東北メディカル・メガバンク機構, 非常勤講師 (50794541)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | コホート研究 / データクリーニング / 外れ値検出 |
Outline of Annual Research Achievements |
東北メディカル・メガバンク機構の大規模ゲノムコホート研究では、15万人の参加者について、各種の血液検査値や画像データ、健康診断結果が計測されると同時に、同意書、生活習慣などに関する調査票といった、紙媒体の形態で収集される情報を取り扱っている。適切な調査結果の還元と医療支援への貢献、そして学術的用途としての有用性を高めるために、データの信頼性確保が必須であり、そのためには、データ入力におけるモニタリングや論理チェック、データクリーニングが重要である。しかし、膨大なデータを全て人力で確認し、調査票原本に戻って修正の必要性を調べることは事実上不可能である。そこで本研究計画では、大規模なデータクリーニングにおいて、1) 集団からの外れ値を検出する際に既知の情報を利用して主成分分析(PCA)を拡張した統計的モデルを使用する、2)検出されたエラー候補をその性質に基づいて分類・処理する、の二つの手法をあわせ用いることにより、この問題の本質的解決を目指している。 2020年度においては、検出されたエラー候補の延べ数が非常に多数であり、調査票の原本に戻った修正では非現実的な時間と手間がかかることから、処理に工夫を行った。そのための調査として、エラー候補の性質に関する見積もりを行い、その結果に基づいて対処(合理的な情報としてそのまま分析する、欠測として扱う、単純なインピュテーション(平均値置換や最頻値置換)を施す、など)を決定した。
|