2012 Fiscal Year Annual Research Report
大量シークエンシング時代に向けた新規配列比較法の開発
Project/Area Number |
22310124
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
後藤 修 独立行政法人産業技術総合研究所, 生命情報工学研究センター, 招聘研究員 (40142111)
|
Co-Investigator(Kenkyū-buntansha) |
市瀬 夏洋 京都大学, 情報学研究科, 助教 (70302750)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | ゲノム / 配列比較 / アライメント / 遺伝子発見 / 次世代シークエンサー / RNA-Seq |
Research Abstract |
本研究課題の第一の目的は、大量の転写産物配列を既知のゲノム配列に対してマップし、イントロン介在の可能性を考慮しながら正確なアラインメントを行うソフトウェアツールの開発である。申請者が独自に開発したマッピング・アラインメントツールであるSpalnを改良することにより、これまで世界中で開発された同類のプログラムの中でわれわれのものが最も高精度であることを示したことが昨年度までの主な成果であった。 一方、DNA塩基配列決定技術の進歩に伴い、一回の実験でシークエンサーが解読できる塩基長が次第に伸長しつつある。従来開発されてきたリードマッピング法は旧来の装置によって読まれる短い配列長に特化しているため、新規機種の出力結果に対応できなくなっている。そのため我々は、中-長(>100bp)の長さを持つcDNA配列を効率よくゲノム配列にマップするRNA-Seq法の開発を本年度の主要な開発目標とした。いくつかの手法を試したが、重なりを許した連続シードを用いる比較的単純な手法がその中で最も高性能であった。これからの普及が見込まれるPacBioシークエンサーの出力に関し、シミュレーションデータと実データを用いた検証を行った結果は大変肯定的なものであった。すなわち、現在最も広く用いられているRNA-Seq法であるTopHatでは全く対応できない長さや高い誤読率を持つリードでも、我々の方法は高い感度と精度でマップできることを確かめた。これらの結果はいくつかの国際学会で発表するとともに、現在原著論文を作成中である。一方で、我々の方法はTopHatやSTARなどの接尾辞配列を用いる手法に比べ計算速度で劣るという欠点がある。並列化によりほぼコア数に比例する高速化が可能であるが、更なる高速化のために現在アルゴリズムの改良に取り組んでいる。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|