研究課題/領域番号 |
18K10099
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分58030:衛生学および公衆衛生学分野関連:実験系を含まない
|
研究機関 | 東北大学 |
研究代表者 |
牧野 悟士 東北大学, 東北メディカル・メガバンク機構, 助教 (30423403)
|
研究分担者 |
田宮 元 東北大学, 東北メディカル・メガバンク機構, 教授 (10317745)
櫻井 利恵子 東北大学, 東北メディカル・メガバンク機構, 非常勤講師 (50794541)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | コホート研究 / データクリーニング / 外れ値検出 |
研究成果の概要 |
大規模ゲノムコホート研究では、綿密な研究計画およびその計画に従った実施体制、エラー防止手法の導入にもかかわらず、種々のエラーの発生が不可避であり、それらのエラーは研究結果に大きく影響を与えるものとなりうる。しかし大規模な調査票をクリーニングすることは人力では不可能であった。そこで、集団からの外れ値を検出する際に既知の情報を利用して主成分分析(PCA)を拡張した統計的モデルを使用することによって、エラー候補検出の自動化および精度向上のための手法を開発し実装した。
|
自由記述の分野 |
ゲノム科学
|
研究成果の学術的意義や社会的意義 |
データクリーニングは、大規模コホート研究のみならず、その重要性が認識されているものの、世界的にコンセンサスを得られた手法は存在しなかった。海外の大規模コホートにおいても、多くはタッチスクリーンベースであるためデータ入力時のエラー発生率は低いと考えられるものの、単純なミスマッチやデータ形式の違いを検出しているのみである。本研究はパターンの違いをエラー検出に利用するため、これまで事実上不可能であった調査票の経時的データや家族間のデータのクリーニングに関しても応用可能となった。
|