研究課題/領域番号 |
21K10465
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分58030:衛生学および公衆衛生学分野関連:実験系を含まない
|
研究機関 | 東北大学 |
研究代表者 |
牧野 悟士 東北大学, 東北メディカル・メガバンク機構, 助教 (30423403)
|
研究分担者 |
田宮 元 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (10317745)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
|
キーワード | コホート研究 / データクリーニング / 外れ値検出 |
研究開始時の研究の概要 |
次世代医療の実現に向けて、健常人ゲノムコホートの重要性はますます高まっており、我が国では東北メディカル・メガバンク(TMM)事業がその一例である。TMM事業では15万人の一般集団から調査票により生活習慣や環境曝露等のデータを収集しており、データ分析においてはこれらデータの信頼性確保が必須である。にもかかわらず、元データを全て人力で確認することは事実上不可能である。そこで本研究では、(1)統計的モデルにより、既知の情報から修正の必要性を判断し、(2)検出されたエラー候補をその性質に基づいて分類・処理するという2つの手法を組み合わせてデータクリーニングを自動化することを行う。
|
研究実績の概要 |
東北メディカル・メガバンク事業では、15万人の一般集団の検体やコホート情報を有し、申請者らは取得された調査票データ、生理学機能検査データを初めとした各種のデータについて、統計学・機械学習の技法を用いたエラー候補の検出を進めてきた。次世代医療の社会実装にむけての取組みが本格的に進む中、健常人ゲノムコホート・バイオバンクの必要性・重要性はますます高まっており、次のステップでは、既存のコホート研究との連携を推進し、健康・医療ビッグデータをさらに大規模化することが必須である。大規模なコホート連携のためには、調査票による生活習慣・環境曝露の測定法についても標準化されたデータ取得・信頼性確保の方法が必要となる。しかし、膨大なデータを全て人力で確認し、調査票原本に戻って修正の必要性を調べることは事実上不可能である。そこで本研究計画では、大規模なデータクリーニングにおいて、1) 集団からの外れ値を検出する際に既知の情報を利用して主成分分析(PCA)を拡張した統計的モデルを使用する、2) 検出されたエラー候補をその性質に基づいて分類・処理する、の二つの手法をあわせ用いることによってデータクリーニングを自動化し、データ取得方法と精度の違いによる統合困難化の回避を目的とする。令和4年度は、PCAを拡張した統計的モデルを用いた異常値検出の自動化アルゴリズムについて、目視検査との比較結果をもとにした調整を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本研究におけるエラー候補検出に関して、人力による異常値検出から自動化アルゴリズムおよびソフトウェア実装への移行を提案している。このことに関して、主成分分析に基づいた手法の開発は概ね達成されたが、目視検査との比較結果をもとにした調整に遅れが生じているため。
|
今後の研究の推進方策 |
我々が開発する検出方法を適用して得られる結果をエラー候補とし、目視検査との比較結果を通して精度のさらなる向上を図る。
|