研究課題
これまでに構築したイネ、線虫、酵母のゲノムアセンブリデータを用いて、ペアードエンド短鎖リードをbwaを用いてアライメントし、コンティグアセンブリ配列中のミスアセンブリ部位に存在する特性を調査した。各タイプ(local misassembly, translocation, inversion等)のミスアセンブリ領域とミスアセンブリの無い領域間でのリードの (1) カバレッジ、(2) discordantリード(元のインサートサイズと大きく異なるリードペアやアライメントの方向がforward-reverseになっていないリードペア)の割合、(3) split(soft-clipped)リードの割合について統計的調査を行なった。その結果、(1), (2), (3) いずれの因子においてもミスアセンブリ領域とミスアセンブリの無い領域間で差が認められた。近年第3世代シークエンシング技術により得られる長鎖リードを用いたゲノムアセンブリの構築が盛んに進められており、短鎖リードを用いたアセンブリに比べて格段に長いコンティグ配列が取得されている。しかし、長鎖リードは15%程度の高いエラーを含み、このエラーが十分に修正されずにアセンブリ中に残ってしまうことが多い。長鎖リードのエラー修正効率、修正精度を調べるため、イネ、線虫、酵母の長鎖リード(PacBioリード)を用いて、既存のエラー修正ツールのエラー修正精度を調査した。その結果、調べた全てのツール(特に短鎖リードを用いたハイブリッドエラー修正ツール)では、リード中の多くのエラーを十分に修正しきれておらず、ゲノムサイズが大きいほどエラー修正率は低下し、ツールの実行時間が極度に長くなることが観察された。
3: やや遅れている
研究代表者の異動により、所属機関での他の研究プロジェクトに大幅に時間を取られ多忙となったため。
ミスアセンブリに関する短鎖リードのアライメント特性のデータを基に、ミスアセンブリを修正する機能を組み込んだツールを開発する計画である。また、最近発表されている長鎖リードのエラー修正ツールも加えて、長鎖リードのエラー修正ツールの諸特性について調査し、今後の研究に繋げていく方針である。
研究代表者の異動により、所属機関での他のプロジェクトに大幅に時間を取られ多忙となったため。
研究成果を発表するための論文校正や出版費等に主に研究費を充てる予定である。
すべて 2016
すべて 雑誌論文 (3件) (うち国際共著 1件、 査読あり 3件、 オープンアクセス 3件) 学会発表 (1件)
BMC Genomics
巻: 17 ページ: 370
10.1186/s12864-016-2690-6
DNA Research
巻: 23 ページ: 171-180
10.1093/dnares/dsw006
生化学
巻: 88 ページ: 44-53
10.14952/SEIKAGAKU