研究課題/領域番号 |
20K15769
|
研究機関 | 東京工業大学 |
研究代表者 |
梶谷 嶺 東京工業大学, 生命理工学院, 助教 (40756706)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | ハプロタイプ / ゲノム / メタゲノム / 多様性 / ヘテロ接合性 |
研究実績の概要 |
本年度では前年度に引き続きハプロタイプ解析用ツールの開発を実施した。開発を進めるにあたって、多数の微生物のハプロタイプが混在した微生物叢のメタゲノムデータは当ツールのテストに適しており、本研究の成果の応用先にもなることが見いだされた。そのため微生物叢のデータを用いて開発を推進し、類似した配列の誤接続を防ぎつつゲノム配列を決定可能なツール: MetaPlatanusを実装し論文発表した (Kajitani et al. 2021)。当ツールは正確性に優れ塩基あたりのコストが低いショートリードDNAシークエンサーのデータ、およびコストは高いが一度に長い配列を読み取れるロングリードDNAシークエンサーのデータを併用することで長いゲノム配列を決定できる。本手法は今後は繰り返し配列が多い真核生物のゲノムデータにも応用されることが期待される。 並行して近年に使用例が増加している、DNA分子の空間的な近接関係を捉えるHi-C法や、エラー率の低いロングリード技術であるHiFiリードの利用の検討も行った。代表者は所属研究室の人員と共同でHi-C法を利用したハプロタイプ配列決定手法を開発している (論文投稿中)。また、HiFiリードを用いても高ヘテロ接合性のサンプルに対しては課題が存在することもベンチマークにより確認している。 公開データを用いたヘテロ接合度分布の網羅的解析については進行中であるが、多数の生物種のゲノムを対象とした計画 (Vertebrate Genomes Project、Darwin Tree of Lifet等) が急速に進行していることに注意を払っている。次年度はクラウド計算機資源を活用しつつ、大量のデータを並列的に処理して解析結果をまとめていく予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度では前年度に引き続きハプロタイプ解析用ツールの開発を実施した。具体的には、前年度までの開発成果を活用してハプロタイプ配列の決定手法の改良に注力した。開発を進めるにあたって、多数の微生物のハプロタイプが混在した微生物叢のメタゲノムデータは当ツールのテストに適しており、本研究の成果の応用先にもなることが見いだされた。そのため微生物叢のデータを用いて開発を推進し、類似した配列の誤接続を防ぎつつゲノム配列を決定可能なツール: MetaPlatanusを実装し論文発表した (Kajitani et al. 2021)。当ツールは正確性に優れ塩基あたりのコストが低いショートリードDNAシークエンサーのデータ、およびコストは高いが一度に長い配列を読み取れるロングリードDNAシークエンサーのデータを併用することで長いゲノム配列を決定できる。また、生物種ごとに部分文字列やリード (読み取り量) が異なることを利用して配列接続のエラーを防止する機能を持つ。なお、微生物叢のデータ取得等には他の研究課題も関連しているが、その研究期間は終了しており本年度は本研究課題の予算を基に進められた。本手法は今後は繰り返し配列が多い真核生物のゲノムデータにも応用されることが期待される。 並行して近年に使用例が増加している、DNA分子の空間的な近接関係を捉えるHi-C法や、エラー率の低いロングリード技術であるHiFiリードの利用の検討も行った。代表者は所属研究室の人員と共同でHi-C法を利用したハプロタイプ配列決定手法を開発している (論文投稿中)。また、HiFiリードを用いても高ヘテロ接合性のサンプルに対しては課題が存在することもベンチマークにより確認している。
|
今後の研究の推進方策 |
開発されたツールであるMetaPlatanusは繰り返し配列が多い真核生物のゲノムデータにも応用されることが期待されるため、関連ツールとアルゴリズムを組み合わせつつそれらのデータへの最適化を模索する。公開データを用いたヘテロ接合度分布の網羅的解析については進行中であるが、多数の生物種のゲノムを対象とした計画 (Vertebrate Genomes Project、Darwin Tree of Life等) が急速に進行していることに注意を払っている。さらにヒトゲノムの完全配列とその解析結果が発表され、セントロメア等の難配列決定領域で集団内での多様性が高まっていると報告されたことも考慮し、短い部分配列 (k-mer) だけでなくそのような領域を含めた大きなスケールでのゲノム構造も観察していきたい。前述のプロジェクト群では大量のドラフトゲノム配列が産出されているが、利用にあたっての権利関係に注意しつつ、これらも解析に含めることを想定している。それにより、DNAシークエンサーの生リードデータのみの解析より多くの知見が得られると期待される。大容量の公開データをダウンロードして解析するためには、多くの計算機と速い通信速度を備えた環境が望ましいため、次年度は課金によるクラウド計算機資源活用を行いつつ、大量のデータを並列的に処理して解析結果をまとめていく予定である。
|
次年度使用額が生じた理由 |
当初の予定から発展して微生物叢データの解析ツール解析を行ったことや、公開ゲノムデータの急速な拡充により計算機環境の構築方法の変更を検討したことによる。課金によるクラウド計算機資源の利用や論文投稿料などに経費を使用する予定である。
|