本研究は大規模ゲノムコホートや疾患コホート等のゲノム解析の主たる技術である次世代シークエンシング(NGS)の限界を見極め、深層学習をはじめとした機械学習・人工知能技術等を用いてその限界を突破することを主眼としたものである。 2019年度はNGS解析に必要な大容量のRAMとコア数を有し、かつ深層学習解析の高速化に必要なGPUも有する計算解析環境を購入し、計算環境を整備した。また1000人ゲノムプロジェクトをはじめとした公共NGSデータも取得し整備した。さらに疾患ゲノム解析にも着手した。その結果、NGSの主要なパイプラインを用いた解析(=二次解析)後の、バリアント解釈(=三次解析)に大きな技術的限界があることを見出し、その主要な技術たるオントロジー技術の調査・解析・独自開発に着手した。2020年度は上記ラインの研究を進めるとともに、NGS解析の大きな限界点の一つである基準ゲノム配列(参照ゲノム配列)の改良とその性能評価を行なった。本研究結果は他の研究結果とともに、Nature Communications誌に報告された。 最終年度である2021年度は、更なるNGS解析の包括化、及び効率化のための高速化を試みた。通常のNGS解析は短いバリアント、構造バリアント、コピー数バリアントと異なるバリアントのタイプ毎に解析が行われるが、我々はこれを包括的に解析し、なおかつその結果をバリアント解釈モジュールに入力可能にするシステムを構築し、実際に運用した。さらにハードウェア構成を検討することで、一検体あたり数十時間の計算時間の短縮を実現した。
|