研究課題/領域番号 |
17K19927
|
研究機関 | 慶應義塾大学 |
研究代表者 |
満山 進 慶應義塾大学, 医学部(信濃町), 特任助教 (30296727)
|
研究期間 (年度) |
2017-06-30 – 2019-03-31
|
キーワード | 深層学習 / 疾患予測 / 人工知能 / 相関解析 / タンパク質 / 遺伝子 / 相互作用 / データベース |
研究実績の概要 |
平成29年度は以下の(1)、(2)のデータ収集ついて研究代表者が行った。 (1)疾患関連タンハク質機能ドメインデータの収集のためにヒト遺伝子タンパク質アミノ酸残基配列を米国NCBI タンパク質データベースのRefseqから113373件取得しEBI-EMBLのInterProScanを用いて検索を行い延べ275,265のタンパク質機能ドメインの取得を行った。(2)疾患関連遺伝子の遺伝子変異データの収集するためにHGMDから遺伝子変異データを8,613遺伝子について取得した。時間短縮のため以下の(3)、(4) についてはプログラム開発業者に委託しデータ収集を行った。(3)一塩基遺伝子多型データ (SNPs)の収集ためにGWAS Catalogに記述のある NCBIの一塩基多型データべース(dbSNP)のIDを387,733件取得し、(4)疾患関連遺伝子/タンパク質相互作用データの収集のためのKEGG (Kyoto Encyclopedia of Genes and Genomes)から87件と米国National Cancer InstituteのBioCartaから5,517件のデータ収集を行った。さらに解析データとして使用するためにCancerProViewに収録されているNCBIのタンパク質ドメインデータの更新を行った。(5)として深層学習(Deep learning)を用いた解析プログラムと遺伝子疾患予測プログラムの作成は新規に購入したGPU(Graphics Processing Unit)サーバー上に、米国Googleが無償で供給している深層学習プログラムTensorflowの開発環境の構築を行った。現在、研究代表者と研究協力者(福島県立医大・森努)がプログラム開発業者と共に深層学習(Deep learning)を用いた遺伝子疾患予測プログラムの作成を行っている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
平成29年度に予定した (1)疾患関連タンパク質機能ドメインデータの収集のためにヒト遺伝子タンパク質アミノ酸残基配列を米国NCBI タンパク質データベースのRefseqから取得を行い、その後得られた配列についてEBI-EMBLのInterProScanを用いてタンパク質機能ドメインの検索を行う、(2)疾患関連遺伝子の遺伝子変異データの収集するためにHGMDから遺伝子変異データを入手、(3)一塩基遺伝子多型データ (SNPs)の収集ためにGWAS Catalogからファイルを取得してそこに記述のある NCBIの一塩基多型データベース(dbSNP)のIDを取得、(4)疾患関連遺伝子/タンパク質相互作用データのためにKEGG (Kyoto Encyclopedia of Genes and Genomes)と米国National Cancer InstituteのBioCartaからの 収集については、当初研究代表者が(1)、(2)、(3)、(4)を行う予定であったが(3)、(4)を業者に委託することで時間短縮を行い予定通り収集できた。さらに研究代表者が研究しているCancerProViewに収録のNCBIのタンパク質ドメインデータの更新を行い解析用データの一部として使用できるようになった。(5)としての深層学習(Deep learning)を用いた解析プログラムと遺伝子疾患予測プログラムの作成は、新規に解析用サーバーの購入を行いGPU(Graphics Processing Unit)を用いた解析システムとして構築を行った。GPUを用いることで高速な演算ができるようになった。このシステムにより米国Googleが開発して無償で供給をしている深層学習プログラムTensorflowを用いデータ解析を行う開発環境が整った。これらのことにより当初の計画以上に進展していると考えられる。
|
今後の研究の推進方策 |
平成29年度により得られたデータとして(1)ヒト遺伝子タンパク質アミノ酸残基配列を米国NCBI タンパク質データベースのRefseqから113373件を取得しEBI-EMBLのInterProScanの検索を行った275,265のタンパク質機能ドメイン、 (2)疾患関連遺伝子の遺伝子変異データの収集するためにHGMDを検索して得られた8,613遺伝子の遺伝子変異データ、(3)一塩基遺伝子多型データ (SNPs)の収集ためにGWAS Catalogに記述のある NCBIの一塩基多型データべース(dbSNP)の387,733ID、(4)疾患関連遺伝子/タンパク質相互作用データの収集のためのKEGGから87件と米国National Cancer InstituteのBioCartaから5,517件のデータ、CancerProViewに収録されているNCBIのタンパク質ドメインデータがある。これらと既存のCancerProViewの遺伝子/タンパク質相互作用のデータを用いて(5)として開発を行っている米国Googleが開発して無償で供給をしている深層学習プログラムのTensorflowを用いたプログラム開発を研究代表者と研究協力者(福島県立医大・森努)がプログラム開発業者と共に継続して行う。それに 加え以下の(6)、(7)を新たに行う。 (6)解析結果の検索システムの構築を行う。検索システムは、Webブラウザ(Microsoft Edge、FireFox、Google Chromなど)を使用することにより簡易な操作で検索できるようにWebサーバーの構築を行う。公開用サーバーの作製はプログラム開発業者が行い、研究代表者と研究協力者(福島県立医大・森努 )が監修を行う。(7)として構築された検索システム及び解析結果は研究論文として学術雑誌に投稿を行い、成果の公表を行う予定である。
|