研究課題
遺伝性疾患の約85%は、遺伝子中のタンパク質コーディング領域のバリアント(変異)が原因であると推察される一方、膨大な候補バリアントの中から真の病因バリアントにたどり着くことは容易ではない。本研究では、これまでに公共のデータベースなどに蓄積されている様々なゲノムデータを活用したデータマイニングにより、ゲノム情報の違いが表現型にどのような影響を及ぼすかといった遺伝子型-表現型相関モデルの構築およびバリアントの病的意義の大きさを定量的に見積もる統計学的手法の開発を目指している。最終年度となる本年度は、モデル疾患を対象にデータマイニングによる遺伝子型-表現型相関の解析(パターンの抽出)を行い、得られたパターンを予測因子として表現型予測モデルを構築した。構築した表現型予測モデルは、sensitivity, specificity等の予測精度指標をクロスバリデーションにより算出・評価した。その結果、予測因子としてミスセンス変異によるアミノ酸の物理化学的特性変化(極性、疎水性、等電荷点)とミスセンス変異の局在(進化的保存領域か否か)を用い、サポートベクタマシンにより機械学習した表現型予測モデルが、accuracy 0.88, sensitivity 0.94, specificity 0.74と最も高い予測精度が得られた。今後は、本手法による表現型(遺伝的リスク)予測モデル構築手法の他疾患への応用を検討する。
すべて 2020
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件)
PLoS One
巻: 15 ページ: e0227646
10.1371/journal.pone.0227646