研究課題/領域番号 |
19K06625
|
研究機関 | 東北大学 |
研究代表者 |
高山 順 東北大学, 未来型医療創成センター, 助教 (20574114)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 次世代シークエンス / バイオインフォマティクス / 基準ゲノム / 深層学習 |
研究実績の概要 |
本研究は、次世代シークエンス(NGS)データの一般的な解析手法であるリシークエンシング法、すなわち短鎖リードを基準ゲノム配列にマッピングし、マッピングされた短鎖リード配列と基準ゲノム配列の差異を検出することで検体が有するバリアント情報を取得し、そこから疾患原因等を探るという枠組の限界を、深層学習技術を用いて克服することを目的とするものである。特に、深層学習技術を用いて、近年明らかになってきた国際基準ゲノム配列の民族構成のバイアスを克服するため、NGSデータをマッピングせずに直接表現型情報と結びつけることを提案するものである。 初年度は、NGSデータおよび深層学習技術の両方を効率的に扱えるようにするため、CPU/GPUともに高速で大容量のRAMを備えたワークステーションを購入し、深層学習技術の開発環境を整備した。また国際1000人ゲノムプロジェクトの公共データを用いてNGSデータから性別情報を予測することを試みた。また、当初計画にはなかったものの、共通した問題意識に基づいて、国際基準ゲノムに内在する民族構成に起因するバイアスの問題を克服するために作成された、民族集団固有の基準ゲノムを用いたNGSデータ解析も行なった。特に、日本人基準ゲノム配列JG1を用いて、日本人検体の希少疾患のNGSデータ解析を行った。その結果、NGSデータ解析の問題は、リシークエンシングの枠組みの方法論的限界とともに、その後のバリアントアノテーションや疾患候補バリアントの優先順位づけ等、NGS解析の下流に位置する解析の多方面に及ぶことが判明し、ここにこそ深層学習やコグニティブシステムといった、近年発達した人工知能技術を適用することの意義が大きいことが判明した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究は、NGSデータの解析に深層学習を適用し、現状のNGS解析の限界を克服することをねらうものである。初年度は、CPU/GPUともに高速で大容量のRAMを備えたワークステーションを購入し、ソフトウェア開発環境を整備した。より具体的には、Intel Xeon Silver 4216 (16C/32T)のCPUを2台、384GB DDR4 RAM、およびNVIDIA GeForce RTX2080Tiを搭載したワークステーションを購入した。高速でコア数の多いCPUと大容量のRAMは、NGSデータ解析を行う上で必要であり、一方のGPUは深層学習計算を高速に行うために必要である。また国際1000人ゲノムプロジェクトの公共データを用いてNGSデータから、検体の性別情報を予測することを試みた。より具体的には、深層学習フレームワークのTensorFlowおよびKerasを用いて、LSTMと呼ばれる深層学習モデルを構築し、予測を試みた。また、当初計画にはなかったものの、国際基準ゲノムに内在する民族バイアスを払拭した、民族集団固有の基準ゲノムである日本人基準ゲノム配列JG1を用いて、日本人検体の希少疾患のNGSデータ解析を行った。その結果、JG1を用いたほうが検出されるバリアントの総数が少なくなるものの、疾患原因バリアントはJG1および国際基準ゲノムの両方で同様に検出することが出来、むしろ問題はその後の段階、すなわちバリアントがどのようなアミノ酸置換を引き起こすか(バリアントインパクト解析)や、その後の疾患原因候補の優先順位づけにあることが判明した。そのため、従来の研究計画に加えて、表現型情報をもとに候補バリアント/遺伝子の優先順位づけを行うコグニティブシステムを構築することも重要な要素であると判断するに至った。
|
今後の研究の推進方策 |
本研究は、NGSデータの解析に深層学習を適用し、現状のNGS解析の限界を克服することをねらうものである。初年度の研究から、当初研究計画にあったNGSデータを深層学習技術で直接処理して表現型情報と結びつける研究とともに、NGSデータ解析後に表現型情報に基づいて候補バリアントを優先順位づけする段階に深層学習等の人工知能技術を適用する研究も重要であると判断した。そのため、本年度は以下のように二本立てで研究を遂行することを計画している。 1. 深層学習技術によるNGSデータからの表現型予測においては、これまでに整備した開発用ワークステーションを用いて、引き続き、CNN, LSTMを含む様々な深層学習モデルを実装し、これにNGSデータを入力とし、また表現型情報を正解ラベルとした学習を行い、予測性能を比較することを試みる。さらにモデルのパラメータおよびハイパーパラメータの最適化を行う。その際、交差検証の枠組を用いることで過学習を防ぎ、汎化性能を評価することに注意する。 2. 候補バリアントの優先順位づけに人工知能技術を適用する計画においては、HPO(Human Phenotype Ontology)等の疾患表現型オントロジー情報の利用、HuRI (Human Reference Interactome)等のタンパク質相互作用情報、およびpLIやその後継であるVIRLOF等の必須遺伝子スコアリングの情報等を包括的に扱うコグニティブシステムの構築を試みる。
|
次年度使用額が生じた理由 |
ほぼ計画通りに使用したため、次年度使用額は640円と少額であった。次年度は物品購入の一部に計上する予定である。
|