2018 Fiscal Year Research-status Report
大規模コホートの調査票における新規データクリーニング手法の開発
Project/Area Number |
18K10099
|
Research Institution | Tohoku University |
Principal Investigator |
牧野 悟士 東北大学, 東北メディカル・メガバンク機構, 助教 (30423403)
|
Co-Investigator(Kenkyū-buntansha) |
田宮 元 東北大学, 東北メディカル・メガバンク機構, 教授 (10317745)
櫻井 利恵子 東北大学, 東北メディカル・メガバンク機構, 非常勤講師 (50794541)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | コホート研究 / データクリーニング / 外れ値検出 |
Outline of Annual Research Achievements |
東北メディカル・メガバンク機構の大規模ゲノムコホート研究では、15万人の参加者について、各種の血液検査値や画像データ、健康診断結果が計測されると同時に、同意書、生活習慣などに関する調査票といった、紙媒体の形態で収集される情報を取り扱っている。適切な調査結果の還元と医療支援への貢献、そして学術的用途としての有用性を高めるために、データの信頼性確保が必須であり、そのためには、データ入力におけるモニタリングや論理チェック、データクリーニングが重要である。しかし、膨大なデータを全て人力で確認し、調査票原本に戻って修正の必要性を調べることは事実上不可能である。そこで本研究計画では、大規模なデータクリーニングにおいて、1) 集団からの外れ値を検出する際に既知の情報を利用して主成分分析(PCA)を拡張した統計的モデルを使用する、2) 検出されたエラー候補をその性質に基づいて分類・処理する、の二つの手法をあわせ用いることにより、この問題の本質的解決を目指している。 初年度においては、同意書および調査票と、関連する特定健診データなどにおいて、期待した通りの挙動をしないデータ及びパターン(ここではエラーと呼称する)の検出を一つ目の目的とした。そのために、これまで人力により行っていたエラーの検出を、主成分分析に基づいて自動化するアルゴリズムの開発を進めてきた。主成分分析を用いたエラー検出法はすでに多く提案されているが、エラー検出の自動化を行い、さらに検出の作業効率を上げるため、統計量の一つである尖度を用いたアルゴリズムを開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、紙媒体の形態で収集される情報の取扱いに主眼を置き、「どのような状態をエラーとするのか」「どのようにエラー候補の検出を行うのか」「検出されたエラー候補の取扱いをどうするのか」に関して、それぞれ新たなアプローチを行い大規模コホートにおける調査票データクリーニングにおける膨大なデータを取扱う上での問題の解決を目指すものである。当初の予定通り、これまで人力により行っていたエラーの検出を、主成分分析に基づいて自動化するアルゴリズムの開発を進め、論文にまとめている。
|
Strategy for Future Research Activity |
引き続き、エラー候補検出に関する下記2点について開発を進める。 (1)エラー検出を自動化するアルゴリズムの開発およびソフトウェア実装 (2)既知の情報を取り込む工夫 (1)に関して、主成分分析に基づいた手法を開発する。検出の作業効率を上げるため、統計量の一つである尖度を用いたアルゴリズムを開発する。また、開発したアルゴリズムはソフトウェアに実装し、実際の大規模コホートデータの解析に応用する。(2)は、欠損パターンが既知である項目(例えば、女性にのみ回答を求める項目において、男性の試験参加者のデータは欠損である)に対し、想定された欠損パターンの情報をあらかじめモデルに入れておくことで異常パターンから除外し、検出結果の精度を向上させる。
|
Causes of Carryover |
ソフトウェアアルゴリズムを開発するにあたり、計算環境を進捗に合わせて拡張してきた。特に、公共データベースから得られたデータや、計算実行時の一時データを保存するための、ストレージ増設を予定していた。年度途中にそれらデータベースの更新をキャッチアップする予定であったが、小規模にリソースを追加するよりも、購入時期をずらすことによって、同価格でより容量の多い後継品を選ぶほうが効率的と考えられた。データの一時保存先を調整することにより、ストレージ拡張まで研究計画の進捗に影響することがないものと見込んでいる。また、次年度のデータが蓄積されてきた時点で、次年度使用額に相当する範囲内で購入可能な、より容量の多い後継品を購入する。
|
Research Products
(2 results)