Project/Area Number |
18K10099
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 58030:Hygiene and public health-related: excluding laboratory approach
|
Research Institution | Tohoku University |
Principal Investigator |
MAKINO Satoshi 東北大学, 東北メディカル・メガバンク機構, 助教 (30423403)
|
Co-Investigator(Kenkyū-buntansha) |
田宮 元 東北大学, 東北メディカル・メガバンク機構, 教授 (10317745)
櫻井 利恵子 東北大学, 東北メディカル・メガバンク機構, 非常勤講師 (50794541)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Project Status |
Completed (Fiscal Year 2020)
|
Budget Amount *help |
¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2020: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2019: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2018: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | コホート研究 / データクリーニング / 外れ値検出 |
Outline of Final Research Achievements |
In large-scale genomic cohort studies, in spite of careful study planning and implementation, and the introduction of error prevention methods, various errors are inevitable, and these errors may have a significant impact on the study results. However, it was not possible to manually clean a large number of questionnaires. Therefore, by using a statistical model that extends principal component analysis (PCA) by utilizing known information when detecting outliers from the data population, we developed and implemented a method to automate the detection of candidate errors and to improve its accuracy.
|
Academic Significance and Societal Importance of the Research Achievements |
データクリーニングは、大規模コホート研究のみならず、その重要性が認識されているものの、世界的にコンセンサスを得られた手法は存在しなかった。海外の大規模コホートにおいても、多くはタッチスクリーンベースであるためデータ入力時のエラー発生率は低いと考えられるものの、単純なミスマッチやデータ形式の違いを検出しているのみである。本研究はパターンの違いをエラー検出に利用するため、これまで事実上不可能であった調査票の経時的データや家族間のデータのクリーニングに関しても応用可能となった。
|