東北メディカル・メガバンク事業では、15万人の一般集団の検体やコホート情報を有し、申請者らは取得された調査票データ、生理学機能検査データを初めとした各種のデータについて、統計学・機械学習の技法を用いたエラー候補の検出を進めてきた。次世代医療の社会実装にむけての取組みが本格的に進む中、健常人ゲノムコホート・バイオバンクの必要性・重要性はますます高まっており、次のステップでは、既存のコホート研究との連携を推進し、健康・医療ビッグデータをさらに大規模化することが必須である。大規模なコホート連携のためには、調査票による生活習慣・環境曝露の測定法についても標準化されたデータ取得・信頼性確保の方法が必要となる。しかし、膨大なデータを全て人力で確認し、調査票原本に戻って修正の必要性を調べることは事実上不可能である。そこで本研究計画では、大規模なデータクリーニングにおいて、1) 集団からの外れ値を検出する際に既知の情報を利用して主成分分析(PCA)を拡張した統計的モデルを使用する、2) 検出されたエラー候補をその性質に基づいて分類・処理する、の二つの手法をあわせ用いることによってデータクリーニングを自動化し、データ取得方法と精度の違いによる統合困難化の回避を目的とする。令和5年度は、複数の調査票をまたがって相関する構造をもつ、家系データと経時データのクリーニングを進めた。対象となる範囲のデータ抽出を行い、データ分布の形状ごとにデータを自動的に分類した後、経時データにおける欠損値の割合やパターンの調査、多重代入の検討を行い、機械学習手法による外れ値検出を実施した。
|