2018 年度研究成果報告書

大規模ゲノムデータの相関構造を考慮した遺伝的予測モデリング

研究課題

PDF

研究課題/領域番号	16K00064
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	統計科学
研究機関	国立研究開発法人理化学研究所 (2017-2018) 久留米大学 (2016)
研究代表者	植木優夫国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (10515860)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	遺伝的予測モデル / ゲノムデータの相関構造 / ゲノムワイド関連解析 / 大規模ゲノムデータ
研究成果の概要	SNPアレイおよびWGSデータは、超高次元データであり、数十万～数千万のバリアントが含まれる。そのような大規模なゲノム情報を用いて、疾患発症リスクを正確に推定するための数学モデルが必要とされている。事前に、疾患に関与する可能性のあるバリアントをスクリーニングする方法がしばしば利用されるが、ほとんどの方法は周辺的な関連に基づき、ゲノムデータ中の相関構造を無視したものである。連鎖不平衡による相関構造のため、周辺スクリーニングで取り出すことが困難な遺伝的因子を効率的に抽出する方法を開発した。さらに、ゲノムワイドスクリーニングにおける計算コストを削減可能な方法を開発した。
自由記述の分野	統計科学
研究成果の学術的意義や社会的意義	SNPアレイやWGSデータなどの網羅的な遺伝情報と生活習慣などの情報を統合し、疾患発症リスクを高精度で算出できれば、個々に最適化された医療（個別化医療）の実現に近づくことができる。しかしながら、これらのゲノム情報は非常に大規模かつ高次元であり、単純な回帰モデルの適用は困難となる。バリアント候補をスクリーニングする次元削減がしばしば行われるが、相関構造を考慮しないことによる予測精度の低下が懸念される。本課題では、相関構造によりスクリーニングにかからないバリアントを利用するための方法を開発した。また、近年のサンプルサイズの大規模化に伴う計算量増大は深刻であるが、統計理論によって高速化を実現した。