2011 Fiscal Year Research-status Report
ヒト数千人規模ncRNAの網羅的探索と機能予測をスパコンで一気通貫に実現する技術
Project/Area Number |
23650150
|
Research Institution | The University of Tokyo |
Principal Investigator |
長崎 正朗 東京大学, 医科学研究所, 准教授 (90396862)
|
Project Period (FY) |
2011-04-28 – 2013-03-31
|
Keywords | スーパーコンピュータ / RNA-Seq / 高性能シークエンサ / 数理統計モデル |
Research Abstract |
東京大学医科学研究所ヒトゲノム解析センターには2009年1月に導入した,ピーク性能値で75TFLOPSのPCクラスター型スーパーコンピュータ及び2TBの共有メモリ型スーパーコンピュータ (http://supcom.hgc.jp/japanese/) があり、1PB容量のディスクが整備されている。すでに、ネットワークの推定、シミュレーション、大規模データ解析などの大規模計算にこの設備を用いた実績がある。この計算資源を用いてコード、非コード領域トランスクリプトーム解析のための準備を進めた。公開されている次世代シーケンサ(NGS)データを積極的に用いて解析準備を整えた。具体的には、NCBIのSequence Read Archive (SRA; http://www.ncbi.nlm.nih.gov/sra/) に登録されているNGS のRNAseqのデータと国立遺伝研のNGSのArchiveデータで利用可能なデータを対象に解析を開始した(200件程度)。このデータの中には、National Human Genome Research Institute (NHGRI)のENCODE Project (ENCyclopedia of DNA Elements; http://www.genome.gov/10005107) のデータも含んでおり、主要なデータセットを網羅していると考えている。このデータに対してスーパーコンピュータ上で動作するパイプラインの実装を行った。また、高機能シークエンサのデータに適した数理統計モデルの基本コンセプトの検討を行い次年度の実装準備を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
公共データベースからデータをダウンロードするとともに用意したヒトゲノム解析センターのスーパーコンピュータ上で動作するパイプラインの準備を行った。また、高機能シークエンサのデータに適した数理統計モデルの基本コンセプトはおおむねできておりそちらを実装することで次年度の解析につなげることができると考えている。そのため、おおむね順調に進展していると結論づけた。
|
Strategy for Future Research Activity |
平成23年度において大量のNGSのデータがSRAなどに登録されることが想定される。長崎の見積もりでは、前年度の数倍のデータが登録されるものと推定している。本研究では前年度で開発したマッピングと後処理を行うパイプラインを、スパコンを用いて実行することで更新追加する。各NGSの計測機器にはGCリッチな領域やリピートを含む領域についてはシーケンス結果が不正確になるという特徴などがあり、RNA-Seqの結果のみから機能microRNA・lincRNAを推定するのは不十分である。そこで、24年度においては、NGSによって取得が進むChip-Seqなどの他の種類のデータについても合わせて解析に加えることでより信頼の高い機能ncRNAを抽出する。そのために、前年度のRNA-Seq処理するためのパイプラインを改良することでChip-Seqのための解析パイプラインを構築する。特に、PolIIなどの転写にかかわる汎用的な因子を使ったChip-Seqのデータを利用することで、実際に転写がおこなわれている領域を同定することができ、場合によっては格段に信頼度の高い機能ncRNAを抽出できること考えらえる。なお、新しい計測機器による1実験あたりのデータ量の増加と解析対象のサンプルの増加による、解析に必要なストレージと計算リソースが増加することが想定されるが、平成24年1月から、申請者の所属する東京大学医科学研究所ヒトゲノム解析センターでは225TFLOPS、4PB容量のディスクに増強することが計画されている。そのため、データの増加においても問題なく円滑に研究を推進できることが保障できる。
|
Expenditure Plans for the Next FY Research Funding |
平成24年度は、国外での最新の情報を取得するために次世代シーケンサの国際会議に参加するととともに、進捗状況を発表する。そのために必要なノート型パソコンを購入する。前年度と同様に、大量に公共データに登録されると思われる高性能シーケンサのデータ処理支援のための謝金の経費を計上している。また、12月には分子生物学会に参加し進捗具合を報告する。なお、ここまでの成果を論文として投稿するための論文校正費用を計上している。
|