2012 Fiscal Year Annual Research Report
ヒト数千人規模ncRNAの網羅的探索と機能予測をスパコンで一気通貫に実現する技術
Project/Area Number |
23650150
|
Research Institution | Tohoku University |
Principal Investigator |
長崎 正朗 東北大学, 東北メディカル・メガバンク機構, 教授 (90396862)
|
Keywords | 次世代シークエンサ / トランスクリプトーム / RNA-Seq / lincRNA / ベイズ法 |
Research Abstract |
次世代シークエンサではさまざまな転写産物を同時に見ることができるが同じ領域から出る転写産物について実際にどの転写産物がどの程度出ているかを区別することが課題である。特に機能を行っているかどうか未知であるncRNAやmicroRNAの網羅的探索においてはより正確な転写産物の推定が重要である。また、各NGSの計測機器にはGCリッチな領域やリピートを含む領域についてはシーケンス結果が不正確になるという特徴などがある。また、ペアエンド法によってシークエンスを行う方法や転写方向を意識したシークエンスの手法などが考案されている。さらに、シークエンサの種類によってシークエンスされるデータのエラー率やエラーの入り方のパターンが異なることが報告されている。そのため、本研究ではこれらの特性を生かしたベイズ法に基づく転写量推定アルゴリズムを開発した。また、前年度で取得した大規模なSRAのデータに対して、本成果をピーク性能値で225TFLOPSのPCクラスター型スーパーコンピュータおよび3PB容量のディスクの上で適用することで信頼度の高い機能しているlincRNAおよびmRNAを抽出できる環境整備を本研究成果により実現することができた。これらのデータを参考にすることでマイクロアレイのデータ解析などのデータ解析研究の因子の絞り込みのヒントとして利用することができた。今後は、これらのデータの整理を行うとともに新しく取得される公開データについて同様の手法を適用し共通して発現している転写産物の抽出などを今後の研究として発展させていく予定である。
|