2016 Fiscal Year Annual Research Report
ハプロタイプを区別する新規ゲノムアセンブラの開発および超多様化ゲノム領域の解析
Project/Area Number |
16H04719
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)
|
Co-Investigator(Kenkyū-buntansha) |
豊田 敦 国立遺伝学研究所, 大学共同利用機関等の部局等, 特任教授 (10267495)
梶谷 嶺 東京工業大学, 生命理工学院, 助教 (40756706)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | ゲノム構築 / アセンブラ / ヘテロ接合性 |
Outline of Annual Research Achievements |
本年度の研究実績の概要としては以下の通りである。 ①先行研究で開発したPlatanusアセンブラをベースとして、ハプロタイプを区別して出力するIlluminaデータに対応したアセンブラのプロトタイプを構築した。従前のアルゴリズムでは、ハプロタイプ間の差異に起因してバブル構造が生じた場合に、できる限り「片側のパス」を採用することで、長く繋がったアセンブル結果を得ていた。それに対して、本研究で開発しているアセンブルでは、まず1塩基の違いで生じるde bruijnグラフ上のバブル構造も許さず、できる限りストレートノードをつなぐことで、ハプロタイプ別の配列構築を試みる。このストレートノードからなるcontigがk-mer coverageの情報、junction nodeの情報から個々のハプロタイプに由来したものであるか、あるいは相同染色体間のhomo領域から構築されたものかの判断を実施し、これらの情報を加味してscaffoldingを実施することで、ハプロタイプを区別したアセンブルの実現を図った。 ②上記アセンブラのベンチマーク/開発は、コンピュータシミュレーションに基づいたIlluminaリードで行われるが、実ゲノム配列には相同染色体間で極めて相同性の低い領域や、逆位など複雑な差異を生んでいることがあるため、実データによる検証が必要不可欠である。そのため、シロオビアゲハ、ナメクジウオ、ヒトのシークエンスを実施した。用いたプラットフォームは、Illumina pair-end, mate-pair, 10X chromium, Pacbioである。 ③②で得られた実データおよびシミュレーションデータに対する①で開発されたプロトタイプアセンブラを用いたベンチマークテストを実施した。低ヘテロなヒトゲノムをのぞいて、従来のPlatanusよりも長いアセンブル結果を得ることに成功した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究計画調書に記載の通り、ハプロタイプを区別することを可能とするアセンブラの開発は順調に進んでいる。シミュレーションデータ、実データにおいても良好な成績を収めており、唯一同様の解析が可能とされている、Pacbioデータを入力としたFALCON_unzipアセンブラと比較しても、ヘテロ接合性が高いゲノムを対象とした場合に、長さ、配列の精度で上回る結果を挙げることに成功している。 但し、ヒトゲノムなど哺乳類に多く見られるヘテロ接合性の低いゲノムにおいては、相同染色体間で観察されるSNVなどが散在しているため、近接する差異間の連鎖をIlluminaのデータでは解決することができず、どうしてもread長の長いPacbioを用いたFALCON_unzipの結果には及ばない。 また、ハプロタイプ別に構築した配列を最後にハプロタイプとは関係なくモザイク状になる可能性を許しつつアセンブルすることで、従来のPlatanusと同等の出力結果が出せるように設計しているが、このデータに関してもヘテロ接合度が高いゲノムでは従来のPlatanusよりもより繋がった配列の取得に成功しているが、ヘテロ接合度が低いゲノムでは劣っている。 以上のように、アセンブラ自体の開発は想定よりも早いくらいのペースで進んでいるが、一部のケースでは劣っていることおよび、ロングリードのデータをうまく取り入れられていないこともあり、概ね順調な推移とした。
|
Strategy for Future Research Activity |
まず本年度プロトタイプ開発を実施した、ハプロタイプを区別したPlatanusアセンブラの問題点を早急に検討、対応し来年度の早い時期に論文化を図る。 続いて、現在必ずしもうまく扱えていないLong readを取り込んだハイブリッドアセンブル手法に少し時間をかけて取り組む予定である。その際には研究計画当初には想定していなかったNanoporeデータの活用も念頭においた開発を行う。Long Readや10X genomicsのデータを活用できれば、さらに長大なハプロタイプ別配列を構築することが可能になるものと考えられる。 上記アセンブラの開発に一定の目処が立った段階で、実データの生物学的な解析へと進む予定である。先行研究では、相同染色体間で極めて多様性に飛んだ領域が数百kbにも渡って存在する例が散見されており、それらの箇所が種文化や表現型に影響を与えているケースも見られる。このような相同染色体間で超多様化している箇所を、各ゲノムから本研究で開発しているアセンブラを利用することにより網羅的に探索することが可能となると考えられる。さらに、そのような領域の種間の共通性やそこに含まれる遺伝子などの機能解析へと研究を展開することが可能であると考えられる。 また、現在共同研究先にて野生種の近交化を4-5世代に渡り試みている段階であり、各世代をシークエンスし親世代のゲノムと比較解析を行う事で、ゲノム中のヘテロ接合度の分布がランダムに落ちて行くのか、あるいは偏りを持って落ちて行くのか、また偏っている場合にはどのような特徴量と相関しているのかを明らかにすることも可能になると考えられる。この解析はゲノム上における多様化領域が維持されるメカニズムの理解への先駆的な一歩となる。
|
Research Products
(3 results)