研究課題
バイオバンクジャパンに登録されている心筋梗塞患者と対照群(非冠動脈疾患患者)およびながはま0次コホート(対照群)から抽出されたDNAを用いて、約5000人の全ゲノムシークエンスを行った。欠損値やアレル頻度の分布、ハーディワインベルグ平衡、近縁度、主成分解析により推定した人種差などを考慮してデータのクオリティコントロールを実施し、心筋梗塞患者約1700人と非心筋梗塞患者約3100人の全ゲノムシークエンスデータを得た。これらのデータを用いて心筋梗塞発症の有無をアレル頻度1%以下のレアバリアントの情報のみから推定するスパースモデリングを用いた機械学習モデルを構築した。LASSOモデルを用いて入力変数(遺伝子)を選別した結果、心筋梗塞の発症に関連が示唆されるレアバリアントを含む遺伝子群を同定し、その中には家族性高コレステロール血症の原因遺伝子等が含まれていた。またこのLASSOをベースにした機械学習モデルを用いて疾患発症予測精度を検討した結果、クロスバリデーションではAUC 0.6以上の精度で心筋梗塞発症を予測することが可能であった。予測性能の妥当性を検討するためにバイオバンクジャパンに登録されている約1000人の全ゲノムシークエンスを行い、学習済みの機械学習モデルの精度を検証した結果、有意な予測性能を示した。機械学習を用いた新たなフレームワークでゲノムデータを解析することによりレアバリアントを網羅的に解析し、疾患に関連する遺伝子群を同定し、遺伝的リスクスコアの作成まで行なっている。またゲノムワイド関連解析(GWAS)を行い従来の多遺伝リスクスコア(PRS)の算出しレアバリアントベースのリスクスコアとPRSの関連を検討している。
2: おおむね順調に進展している
研究者はこれまでに5000人規模の大規模の全ゲノムシークエンスとデータのクオリティコントロールを行い、そのデータを用いて心筋梗塞発症の有無をゲノムのレアバリアントの情報のみから推定する機械学習モデルを構築し学習させている。その結果、心筋梗塞の発症に関連が示唆されるレアバリアントを含む遺伝子群を同定している。同時にレアバリアントのみの情報から遺伝的リスクスコアを作成し、独立したデータで有意な性能を示すことを検証済である。このように機械学習を用いた新たなフレームワークで全ゲノムシークエンスデータを解析することによりレアバリアントを網羅的に解析し、疾患に関連する遺伝子群を同定し、リスクスコアの作成まで行なっており、missing heritabilityの一部をレアバリアントにより説明することが可能であることを示唆する結果が得られている。期待された成果が得られており、研究計画は概ね順調に進展していると考えられる。
遺伝的リスクスコアとしては、ゲノムワイド関連解析(GWAS)の結果から算出される多遺伝リスクスコア(PRS)が有名であり様々な疾患で検証されている。今後は、バイオバンクのデータを用いて心筋梗塞のGWASを施行しPRSを算出し、今回作成したレアバリアントベースの遺伝的リスクスコアと統合を行う。その結果として、心筋梗塞の発症予測性能がPRS単独に比べて有意に向上することを示していく。また構築した機械学習モデルが他の人種でも同様に当てはまるかを確認するため、UKバイオバンクなどの日本人以外のゲノムデータを用いて検討を行っていく。具体的にはUKバイオバンクで公開されている約20万人の全エキソームシークエンス(WES)を用いて、機械学習モデルを学習させ、抽出される遺伝子の比較などを行う。抽出した遺伝子の機能解析についてはマウスを用いた機能解析を予定していたが、検討にかかる時間を考慮して公開データベースを用いたアノテーションにより機能推定を行うことを予定している。
すべて 2021 2020
すべて 雑誌論文 (1件) 学会発表 (3件)
CARDIAC PRACTICE
巻: 31(1) ページ: 15-21