研究課題/領域番号 |
20K15769
|
研究機関 | 東京工業大学 |
研究代表者 |
梶谷 嶺 東京工業大学, 生命理工学院, 助教 (40756706)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | ハプロタイプ / ゲノム / ヘテロ接合性 / NGS |
研究実績の概要 |
本年度は前年度に引き続き、DNA分子の空間的な近接関係を捉えるHi-C法のデータを活用したハプロタイプ構築手法の開発も行った。ロングリード用ゲノムアセンブラの出力配列 (contig) を入力とし、染色体レベルのハプロタイプ配列 (scaffold) の構築に多くのケースで成功したが、一部のケースでは、入力のアセンブリ済み配列 (contig) の処理の問題で最終的な配列が断片化する問題が発生した。前年度までに開発したde Bruijnグラフ構造を操作するツールを応用し、入力配列の相同領域を効率よく対応づけることで、最終的な配列を安定して染色体スケールにすることができた。 また、公開データを用いたヘテロ接合度の推定パイプラインを開発し、さらに他の大型ゲノム決定プロジェクトのデータに関しても調査を実施した。解析パイプラインの最初のステップはメタデータの抽出であり、ショートリードDNAシークエンサーデータの情報を抽出し、データサイズ、対象生物の系統、シークエンサーの種類などでフィルタリングを行う。対象データベースはSequence Read Archive (SRA) である。次のステップでは、シークエンサーのリードデータのダウンロード、トリミング、コンタミネーションの除去、k-mer頻度解析を行い、最終的にヘテロ接合度などの統計量を推定する。さらに、多数の生物種のゲノムを対象とした計画:Darwin Tree of Lifeの解析結果も参照し、ヘテロ接合度の集計を行った。結果としては、高ヘテロ接合性 (>1%) のサンプルが、予想通り多く観察された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
公開データを用いたヘテロ接合度の推定パイプラインを開発した。解析パイプラインの最初のステップはメタデータの抽出であるが、そこでは情報取得ツール:Entrez DirectでショートリードDNAシークエンサーデータの情報 (メタデータ) を抽出し、データサイズ、対象生物の系統、シークエンサーの種類などでフィルタリングをしてクオリティのコントロールも行う。対象データベースはSequence Read Archive (SRA) である。次のステップでは、シークエンサーのリードデータのダウンロード (SRA Toolkit)、トリミング (fastp)、コンタミネーションの除去 (Kraken2)、k-mer頻度解析 (GenomeScope2) を行い、最終的にヘテロ接合度などの統計量を推定する。さらに、多数の生物種のゲノムを対象とした計画:Darwin Tree of Lifeの解析結果も参照し、ヘテロ接合度の集計を行った。結果としては、高ヘテロ接合性 (>1%) のサンプルが、予想通り多く観察された。 並行して、DNA分子の空間的な近接関係を捉えるHi-C法のデータを活用したハプロタイプ構築手法の開発も行った。ロングリード用ゲノムアセンブラの出力配列 (contig) を入力とし、染色体レベルのハプロタイプ配列 (scaffold) の構築に多くのケースで成功したが、一部のケースでは、入力のアセンブリ済み配列 (contig) の処理の問題で最終的な配列が断片化する問題が発生した。前年度までに開発したde Bruijnグラフ構造を操作するツールを応用し、入力配列の相同領域を効率よく対応づけることで、最終的な配列を安定して染色体スケールにすることができた。しかしながら、ツールの論文の査読期間が10ヶ月以上と長引き、論文発表に至っていない。
|
今後の研究の推進方策 |
開発されたハプロタイプ構築ツールに関する論文は査読中であるが、ベンチマーク対象の生物種を増やして汎用性について検証する。当Hi-C法リードのリンク情報を基に入力配列 (contig) を接続していくが、contig数が多い場合に実行時間が大きくなる問題がある。特に、de Bruijnグラフ構造を応用して相同領域を対応づけるツールを適用した場合に結果のcontig数が大きくなる傾向がある。対策としてボトルネックになっている関数の部分に関して効率の良い並列化を実装することで問題を解決することを検討している。 公開データのヘテロ接合度推定ツールについては、データのダウンロード段階が律速になっている。あるデータのダウンロード中に別のステップを並列化し、さらに複数のマシンで並列実行するフレームワークを構築することを検討している。
|
次年度使用額が生じた理由 |
公開ゲノムデータの急速な拡充により計算機環境の構築方法の変更を検討したことによる。また、ハプロタイプ構築ツールにおいても、配列の接続機能 (scaffolding) よりも入力配列の相同領域を対応づける機能が結果に大きな影響を与えることが発見されるなど、開発において予想外の展開が起きたり、査読期間が10ヶ月以上と長引いたことが挙げられる。課金によるクラウド計算機資源の利用や論文投稿料などに経費を使用し、公開データの解析と知見の普及を促進することを予定して、計画延長と繰り越しを決定した。
|