Project/Area Number |
21K10465
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 58030:Hygiene and public health-related: excluding laboratory approach
|
Research Institution | Tohoku University |
Principal Investigator |
牧野 悟士 東北大学, 東北メディカル・メガバンク機構, 助教 (30423403)
|
Co-Investigator(Kenkyū-buntansha) |
田宮 元 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (10317745)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | コホート研究 / データクリーニング / 外れ値検出 |
Outline of Research at the Start |
次世代医療の実現に向けて、健常人ゲノムコホートの重要性はますます高まっており、我が国では東北メディカル・メガバンク(TMM)事業がその一例である。TMM事業では15万人の一般集団から調査票により生活習慣や環境曝露等のデータを収集しており、データ分析においてはこれらデータの信頼性確保が必須である。にもかかわらず、元データを全て人力で確認することは事実上不可能である。そこで本研究では、(1)統計的モデルにより、既知の情報から修正の必要性を判断し、(2)検出されたエラー候補をその性質に基づいて分類・処理するという2つの手法を組み合わせてデータクリーニングを自動化することを行う。
|
Outline of Annual Research Achievements |
東北メディカル・メガバンク事業では、15万人の一般集団の検体やコホート情報を有し、申請者らは取得された調査票データ、生理学機能検査データを初めとした各種のデータについて、統計学・機械学習の技法を用いたエラー候補の検出を進めてきた。次世代医療の社会実装にむけての取組みが本格的に進む中、健常人ゲノムコホート・バイオバンクの必要性・重要性はますます高まっており、次のステップでは、既存のコホート研究との連携を推進し、健康・医療ビッグデータをさらに大規模化することが必須である。大規模なコホート連携のためには、調査票による生活習慣・環境曝露の測定法についても標準化されたデータ取得・信頼性確保の方法が必要となる。しかし、膨大なデータを全て人力で確認し、調査票原本に戻って修正の必要性を調べることは事実上不可能である。そこで本研究計画では、大規模なデータクリーニングにおいて、1) 集団からの外れ値を検出する際に既知の情報を利用して主成分分析(PCA)を拡張した統計的モデルを使用する、2) 検出されたエラー候補をその性質に基づいて分類・処理する、の二つの手法をあわせ用いることによってデータクリーニングを自動化し、データ取得方法と精度の違いによる統合困難化の回避を目的とする。令和4年度は、PCAを拡張した統計的モデルを用いた異常値検出の自動化アルゴリズムについて、目視検査との比較結果をもとにした調整を進めた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究におけるエラー候補検出に関して、人力による異常値検出から自動化アルゴリズムおよびソフトウェア実装への移行を提案している。このことに関して、主成分分析に基づいた手法の開発は概ね達成されたが、目視検査との比較結果をもとにした調整に遅れが生じているため。
|
Strategy for Future Research Activity |
我々が開発する検出方法を適用して得られる結果をエラー候補とし、目視検査との比較結果を通して精度のさらなる向上を図る。
|