心筋梗塞患者と対照群合わせて5000人の全ゲノムシークエンスを行い、データのクオリティコントロールを実施した。そのデータを用いて心筋梗塞発症の有無をゲノムのレアバリアントの情報のみから推定するスパースモデリングを用いた機械学習モデルを構築した。 その結果として、心筋梗塞の発症に関連が示唆されるレアバリアントを含む遺伝子群を同定し、その中には家族性高コレステロール血症の原因遺伝子などが含まれていることを確認した。この機械学習モデルを用いてレアバリアント遺伝的リスクスコア(RVS)を作成した。バイオバンクジャパンのSNPアレイジェノタイピングデータを用いてゲノムワイド関連解析(GWAS)を行いコモンバリアントからなる多遺伝子リスクスコア(PRS)を作成した。 これらのリスクスコアは、独立した1000人の全ゲノムデータでRVSが有意な予測性能を示し、PRSと統合した包括的遺伝的リスクスコアで予測性能が有意に向上することを確認した。 この結果の他人種での再現性を確認するためにUKバイオバンクのエクソームシークエンスのデータのクオリティコントロールと機械学習モデルの適応を進めている。 機械学習を用いた新たなフレームワークでゲノムデータを解析することによりレアバリアントを網羅的に解析し、疾患に関連する遺伝子群を同定し、リスクスコアの作成まで行なっており、missing heritabilityの一部をレアバリアントにより説明することが可能であることを示唆する結果が得られた。
|