2017 Fiscal Year Annual Research Report

ハプロタイプを区別する新規ゲノムアセンブラの開発および超多様化ゲノム領域の解析

Research Project

Project/Area Number	16H04719
Research Institution	Tokyo Institute of Technology
Principal Investigator	伊藤武彦東京工業大学, 生命理工学院, 教授 (90501106)
Co-Investigator(Kenkyū-buntansha)	豊田敦国立遺伝学研究所, 生命情報研究センター, 特任教授 (10267495) 梶谷嶺東京工業大学, 生命理工学院, 助教 (40756706)
Project Period (FY)	2016-04-01 – 2019-03-31
Keywords	ゲノム解析 / ヘテロ接合性
Outline of Annual Research Achievements	A) Platanusを基にしたIllumina用ハプロタイプアセンブルアルゴリズムの改良昨年度までに開発したプロトタイプアルゴリズムを用いて、本年度は各種生物の実データを基にしたベンチマークテストを幅広く実施した。中でもゲノムが既にわかっているヘテロ接合度の低い線虫二種のゲノムを計算機上で混ぜることにより、解のわかっている実データによるベンチマークを行い、ミスアセンブル箇所などを精査することでアルゴリズムの改良を効果的に進めることに成功した。結果として、本研究課題の主なターゲットであるヘテロ接合度の高い生物種ゲノムに対して他アセンブラと優位性を確保したアルゴリズムがほとんど完成したと考えられる。 B) PacBio, Nanopore, 10X Chromiumなどを活用したハプロタイプアセンブルアルゴリズムの開発ロングリードの利点を活かすことで、IlluminaのMate-pairデータのみではphasingできないような連鎖関係を解決することを目指し、各種ロングリードを組み込む事のできるアルゴリズムの開発を実施した。具体的には、Illuminaデータにより構築されたcontigデータ間をロングリード情報を用いたscaffolding, phasingすることを試みた。PacBio, NanoporeデータはIlluminaデータと異なり、シークエンスの精度が85%前後と極めて低いため、minmapによるコンティグ配列へのマッピングを行うことでロングリードデータの活用を行った。 C) 野生型2倍体サンプルのアセンブルを通した超多様化ゲノム領域の解析 A), B)で構築したアルゴリズムを用い、シロオビアゲハ、ナメクジウオゲノムを対象とした超多様化ゲノム領域の抽出に成功した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究課題の最終的な目的は、高等真核生物ゲノムを対象とし相同染色体の配列を「分けて」出力するハプロタイプアセンブラの開発と、そのアセンブラを用いた野生種ゲノムの解析による超多様化領域の抽出である。前者に関しては、Illuminaデータを入力とした部分はほぼ完成したと考えられ、PacBio, Nanopore, 10X Chromiumを入力とした部分に関しても、基本的なアルゴリズムは完成しアセンブラに組み込み正常に稼働しているところまでは確認がとれている。ロングリードの扱いに関しては、組み込む前と後とで若干性能差が出ていないといった問題はあるが、ベンチマーク用のデータも十分取得したため、これらのデータの活用により来年度までに予定通り開発は終了することを見込むことができると考えられる。後者の超多様化領域の解析であるが、シロオビアゲハ、ナメクジウオの二種においては該当領域の抽出に成功しており、その抽出プロトコルも確立したと考えている。したがって来年度には生物種を大きく広げて解析を行うことが十分可能である。以上二点を総合的に判断して、研究はおおむね順調に進展しており、来年度末には想定された研究成果を上げることが可能であると判断される。
Strategy for Future Research Activity	来年度は最終年度であることから、ハプロタイプ別ゲノム配列の出力を可能とするアセンブラプログラムの完成を目指す予定である。この実現のため、ベンチマークテストを中心としたアルゴリズムの最終的な微調整を行って行きたいと考えている。特にPacBio, Nanopore, 10X Chromiumといったロングードを有効活用する部分に関しては、未だ大きく改良を施す余地が残っていると考えられ、この部分を中心に解析を進める。現在はphasingにのみ活用されているような状況であるが、scaffolding時にもロングリード情報を上手く活用できるようにアルゴリズムの改良を図る。また、現在のバージョンではヘテロ接合度の低いゲノム領域で性能が低下するていう問題もあるため、この部分への取り組みも図る予定である。最終的に開発したアルゴリムに基づいたプログラム化についても進め、共同研究先での試用などからのフィードバックも含め、最終的なプログラムの完成を図る。また、得られた成果の論文化も進め、アルゴリズムに関する論文と本手法を用いて解析した結果による論文の複数報を予定している。一方、後者の超多様化領域の抽出に関しては、既存データベース中に登録されている他プロジェクトのデータも含めて幅広い生物種で実施することを予定している。最終的にはこのような領域の持つ種を超えた共通性など生物学的意義にまで踏み込めるように解析を進めていく。

Research Products
(1 results)

All Presentation (1 results)

[Presentation] Platanus2: a de novo haplotype assembler enabling comprehensive accesses to divergent heterozygous region.2017
- Author(s)
  梶谷嶺，吉村大，奥野未来，豊田敦，伊藤武彦
- Organizer
  第6回生命医薬情報学連合大会（IIBMP2017）