2022 Fiscal Year Research-status Report
コホート間連携における調査票データクリーニングの自動化
Project/Area Number |
21K10465
|
Research Institution | Tohoku University |
Principal Investigator |
牧野 悟士 東北大学, 東北メディカル・メガバンク機構, 助教 (30423403)
|
Co-Investigator(Kenkyū-buntansha) |
田宮 元 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (10317745)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | コホート研究 / データクリーニング / 外れ値検出 |
Outline of Annual Research Achievements |
東北メディカル・メガバンク事業では、15万人の一般集団の検体やコホート情報を有し、申請者らは取得された調査票データ、生理学機能検査データを初めとした各種のデータについて、統計学・機械学習の技法を用いたエラー候補の検出を進めてきた。次世代医療の社会実装にむけての取組みが本格的に進む中、健常人ゲノムコホート・バイオバンクの必要性・重要性はますます高まっており、次のステップでは、既存のコホート研究との連携を推進し、健康・医療ビッグデータをさらに大規模化することが必須である。大規模なコホート連携のためには、調査票による生活習慣・環境曝露の測定法についても標準化されたデータ取得・信頼性確保の方法が必要となる。しかし、膨大なデータを全て人力で確認し、調査票原本に戻って修正の必要性を調べることは事実上不可能である。そこで本研究計画では、大規模なデータクリーニングにおいて、1) 集団からの外れ値を検出する際に既知の情報を利用して主成分分析(PCA)を拡張した統計的モデルを使用する、2) 検出されたエラー候補をその性質に基づいて分類・処理する、の二つの手法をあわせ用いることによってデータクリーニングを自動化し、データ取得方法と精度の違いによる統合困難化の回避を目的とする。令和4年度は、PCAを拡張した統計的モデルを用いた異常値検出の自動化アルゴリズムについて、目視検査との比較結果をもとにした調整を進めた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究におけるエラー候補検出に関して、人力による異常値検出から自動化アルゴリズムおよびソフトウェア実装への移行を提案している。このことに関して、主成分分析に基づいた手法の開発は概ね達成されたが、目視検査との比較結果をもとにした調整に遅れが生じているため。
|
Strategy for Future Research Activity |
我々が開発する検出方法を適用して得られる結果をエラー候補とし、目視検査との比較結果を通して精度のさらなる向上を図る。
|
Causes of Carryover |
令和4年度に計画していた物品購入や打ち合わせの旅行等について、新型コロナウイルス感染症による部材不足、出張の難しさなどから、令和5年度以降に延期したため。
|