研究実績の概要 |
前年度に取得した米国NCBIのRefseqヒト遺伝子タンパク質アミノ酸残基配列のデータ113,373件についてEBI-EMBLのInterProScanを使用して検索を行った275,265件のタンパク質ドメインと疾患関連遺伝子変異データベースHGMDの8,613遺伝子の遺伝子変異を用い、タンパク質ドメインと遺伝子の領域について対応付けを行い、Missense、Small deletion、Small insertion、Small indelの各変異についての一覧の作成を行った。HGMDの中にはNCBIの一塩基型データべース(dbSNP)の病原性遺伝子多型のデータを含んでいる。その結果、4,929遺伝子、2,522個のタンパク質ドメインと疾患の対応付けが出来た。タンパク質ドメインの中の変異が一つのものを除いた1,477個のデータを用いて、米国Googleが開発し無償で供給をしている深層学習プログラムTensorflowにより疾患予測プログラムの開発を行った。プログラムは、入力層、中間層、出力層からなる3層ニューラルネットワークを使用して学習モデルの構築を行った。その結果からタンパク質ドメイン中の遺伝子変異と関連する確率の高い疾患の予測を行った。その結果、3-methylcrotonyl-CoA carboxylase deficiency、Adrenoleukodystrophy、Cystic fibrosis、Glutaricacidaemia、Gyrate atrophy、Stargardt diseaseの6疾患について相関が見られた。この結果は、Webページ(http://cancerproview.jp/disease)で検索を行える。遺伝子パスウェイについては、KEGGやBioCartaなどのデータベースに対応できる疾患関連遺伝子検索ツールの作成を行った。
|