研究実績の概要 |
最終年度である本年度は、昨年度までに開発してきた相同染色体を分けてアセンブルするアルゴリズムにさらなる改良を加え、最終的にアルゴリズムの論文化・ソフトウェアの公開を実施した。本研究で最終的に開発したアルゴリズムの概要を以下に説明する。 まずIlluminaのPEデータを入力とし、k-merに分割することでde bruijnグラフを構築する。この際に、全く分岐のないグラフ領域をcontig、また分岐の領域をjunctionとして出力する。次に、Illuminaのmate-pair, Longread, 10X Chromiumのデータを利用し、contig間、contig-junction間がどのようにレイアウトされているかを解決する。この際に、相同染色体を構成する対となるペアのcontigを抽出してレイアウトすることで、diploidゲノム配列の構築を行う。最後にgap部分をIlluminaのPE, MPデータのマッピング結果から埋める工程を行う。 このアルゴリズムを線虫、シロオビアゲハ、ナメクジウオ、ヒトなどの各種ゲノムデータに適用したところ、既存の同様の機能を持ったアセンブラFALCON-unzipよりも長くアセンブルできていることが確認できた。精度に関しても線虫のN2株との配列比較、またヒトHLA領域における確認などにより、既存のどの手法よりも高いことが示された。また、FALCON-unzipなど既存のアセンブラでは構築できていない特有のヒトゲノム配列の構築にも成功した。 これらの成果は、nature communication誌に論文として発表すると共に、ホームページ (http://platanus.bio.titech.ac.jp/platanus2/) より広く一般に公開している。
|