• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Research-status Report

ヒト数千人規模ncRNAの網羅的探索と機能予測をスパコンで一気通貫に実現する技術

Research Project

Project/Area Number 23650150
Research InstitutionThe University of Tokyo

Principal Investigator

長崎 正朗  東京大学, 医科学研究所, 准教授 (90396862)

Project Period (FY) 2011-04-28 – 2013-03-31
Keywordsスーパーコンピュータ / RNA-Seq / 高性能シークエンサ / 数理統計モデル
Research Abstract

東京大学医科学研究所ヒトゲノム解析センターには2009年1月に導入した,ピーク性能値で75TFLOPSのPCクラスター型スーパーコンピュータ及び2TBの共有メモリ型スーパーコンピュータ (http://supcom.hgc.jp/japanese/) があり、1PB容量のディスクが整備されている。すでに、ネットワークの推定、シミュレーション、大規模データ解析などの大規模計算にこの設備を用いた実績がある。この計算資源を用いてコード、非コード領域トランスクリプトーム解析のための準備を進めた。公開されている次世代シーケンサ(NGS)データを積極的に用いて解析準備を整えた。具体的には、NCBIのSequence Read Archive (SRA; http://www.ncbi.nlm.nih.gov/sra/) に登録されているNGS のRNAseqのデータと国立遺伝研のNGSのArchiveデータで利用可能なデータを対象に解析を開始した(200件程度)。このデータの中には、National Human Genome Research Institute (NHGRI)のENCODE Project (ENCyclopedia of DNA Elements; http://www.genome.gov/10005107) のデータも含んでおり、主要なデータセットを網羅していると考えている。このデータに対してスーパーコンピュータ上で動作するパイプラインの実装を行った。また、高機能シークエンサのデータに適した数理統計モデルの基本コンセプトの検討を行い次年度の実装準備を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

公共データベースからデータをダウンロードするとともに用意したヒトゲノム解析センターのスーパーコンピュータ上で動作するパイプラインの準備を行った。また、高機能シークエンサのデータに適した数理統計モデルの基本コンセプトはおおむねできておりそちらを実装することで次年度の解析につなげることができると考えている。そのため、おおむね順調に進展していると結論づけた。

Strategy for Future Research Activity

平成23年度において大量のNGSのデータがSRAなどに登録されることが想定される。長崎の見積もりでは、前年度の数倍のデータが登録されるものと推定している。本研究では前年度で開発したマッピングと後処理を行うパイプラインを、スパコンを用いて実行することで更新追加する。各NGSの計測機器にはGCリッチな領域やリピートを含む領域についてはシーケンス結果が不正確になるという特徴などがあり、RNA-Seqの結果のみから機能microRNA・lincRNAを推定するのは不十分である。そこで、24年度においては、NGSによって取得が進むChip-Seqなどの他の種類のデータについても合わせて解析に加えることでより信頼の高い機能ncRNAを抽出する。そのために、前年度のRNA-Seq処理するためのパイプラインを改良することでChip-Seqのための解析パイプラインを構築する。特に、PolIIなどの転写にかかわる汎用的な因子を使ったChip-Seqのデータを利用することで、実際に転写がおこなわれている領域を同定することができ、場合によっては格段に信頼度の高い機能ncRNAを抽出できること考えらえる。なお、新しい計測機器による1実験あたりのデータ量の増加と解析対象のサンプルの増加による、解析に必要なストレージと計算リソースが増加することが想定されるが、平成24年1月から、申請者の所属する東京大学医科学研究所ヒトゲノム解析センターでは225TFLOPS、4PB容量のディスクに増強することが計画されている。そのため、データの増加においても問題なく円滑に研究を推進できることが保障できる。

Expenditure Plans for the Next FY Research Funding

平成24年度は、国外での最新の情報を取得するために次世代シーケンサの国際会議に参加するととともに、進捗状況を発表する。そのために必要なノート型パソコンを購入する。前年度と同様に、大量に公共データに登録されると思われる高性能シーケンサのデータ処理支援のための謝金の経費を計上している。また、12月には分子生物学会に参加し進捗具合を報告する。なお、ここまでの成果を論文として投稿するための論文校正費用を計上している。

  • Research Products

    (4 results)

All 2011

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results)

  • [Journal Article] ClipCrop: a tool for detecting structural variations with single-base resolution using soft-clipping information2011

    • Author(s)
      Shin Suzuki, Tomohiro Yasuda, Yuichi Shiraishi, Satoru Miyano and Masao Nagasaki
    • Journal Title

      BMC Bioinformatics

      Volume: 12 Pages: S7

    • DOI

      10.1186/1471-2105-12-S14-S7

    • Peer Reviewed
  • [Presentation] 高性能シークエンサ大規模データのスーパコンピュータ上での効率的な管理と解析環境の構築2011

    • Author(s)
      長崎正朗
    • Organizer
      第12回IPABシンポジウム~超並列スパコンとバイオ計算、(招待講演)
    • Place of Presentation
      東京(秋葉原)
    • Year and Date
      2011年12月9日
  • [Presentation] Data Management and Bioinformatics of Next Generation Sequencing Data on the Massive Parallel Supercomputer2011

    • Author(s)
      Masao Nagasaki
    • Organizer
      Next Generation Sequencing Asia Congress 2011(招待講演)
    • Place of Presentation
      Singapore(Concorde Hotel)
    • Year and Date
      2011年10月4日
  • [Presentation] ClipCrop: a tool for detecting structural variations with single-base resolution using soft-clipping information2011

    • Author(s)
      鈴木晋
    • Organizer
      22nd International Conference on Genome Informatics
    • Place of Presentation
      Korea(Pusan)
    • Year and Date
      2011 – 128

URL: 

Published: 2013-07-10  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi