• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

クラウド型高速シーケンシングアノテーションシステムの開発研究

Research Project

Project/Area Number 24510273
Research Category

Grant-in-Aid for Scientific Research (C)

Research InstitutionNational Institute of Genetics

Principal Investigator

長崎 英樹  国立遺伝学研究所, 生命情報研究センター, 特任研究員 (70624451)

Project Period (FY) 2012-04-01 – 2015-03-31
Keywords次世代シーケンサー / リシーケンス / SNP / RNA-Seq / ChIP-Seq / denovo アセンブル / クラウドコンピューティング
Research Abstract

1)高速シーケンサー由来塩基配列解析システム、DDBJパイプラインについて
研究代表者らが参画しているDNA Data Bank of Japan (DDBJ)では欧米と共同で国際塩基配列データベース(INSDC)を構築し、高速シーケンサー由来の塩基配列の登録業務と公開を行っている。しかしこれらの配列データは一回の解析で6千億bpにおよぶほど膨大で解析には高い情報処技術が必要となる。そのため解析を促進し、配列登録の増加や公開データの利用を期待して、操作を単純化した解析システム、DDBJ Read Annotation Pipeline (DDBJパイプライン)を構築している。DDBJパイプラインは、インターネットを介したクラウドコンピューティングの技術を用いて、国立遺伝学研究所のスーパーコンピュータシステム上で稼働し公開されている(http://p.ddbj.nig.ac.jp)。
平成24年度においてはパイプラインの機能拡張として多型解析やde novoアセンブル配列の遺伝子構造解析といったより高度な解析機能の追加を行った。以上の内容で論文を執筆し、DNA Research誌に投稿、受理された(現在掲載巻は未定)。
2)高速シーケンサー由来の塩基配列データによる多型データベースを構築
近縁生物種間のSingle Nucletide Polymorphism (SNP)等の変異解析は高速シーケンサーの登場によって加速された研究分野である。しかし変異の判断基準は、解析プログラムや設定値の違いで個々の研究で異なる。研究代表者らは公開配列データを用いて共通の手順で解析することでゲノム横断的な解析になると考えた。平成24年度においてはDDBJより公開されているイネ品種678系統をもとに多型データを解析している。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

1)高速シーケンサー由来塩基配列解析システム、DDBJパイプラインについて
平成24年度の目的はDDBJパイプラインにおける「高次解析実行環境の整備」だった。高速シーケンサーの解析は基本的に初期段階で膨大な配列データによる参照配列へのマッピングやde novoアセンブルといった比較的コンピュータに負荷がかかるが一元的な処理が行われる。この処理は基礎解析パイプラインとしてすでに構築ずみであったが、実際に研究者が望むデータはマッピングによる配列間の違いの検出結果や遺伝子発現、アセンブルされた配列中の遺伝子情報など、さらにもう一段階上の二次解析による結果である。また、これらの解析は研究の流行で多様化が進む可能性がある。これらの解析をサポートできたため利用者の利便性は向上したと考えている。またこれた高次解析のパイプラインはWebアプリケーションのGalaxyを基礎としており、エンジニア以外の人物でも部分的な改良が可能で、今後の解析多様化にも対応できると考えている。また、DDBJパイプラインの利用登録者は平成25年5月現在関係者を除き約140人となっており活用が広まりつつある。また、論文も受理されたいるため順調であると考える。
2)高速シーケンサー由来の塩基配列データによる多型データベースを構築
平成24年度の目的は「データ整備、多型検出基準の策定」であった。公開されているイネ品種678系統の高速シーケンサーによって解読された塩基配列データを完全決定された日本型イネ品種日本晴にマップを行ったデータと(独)農業食品産業技術総合研究機構果樹研究所より提供された高速シーケンサー配列とサンガー法のシーケンシングによる多型情報を元に基準を設定、個々の配列の不正確な塩基の除去と3x以上の重なりでマップされた領域のみの多型を検出した。以上より順調に進行していると考える。

Strategy for Future Research Activity

1)高速シーケンサー由来塩基配列解析システム、DDBJパイプラインについて
平成25年度に解析パイプラインのバーチュアルマシン(VM)化を行う。高速シーケンサーによる解読データは装置の高性能化が続くかぎり増加すると考えられる。それに伴い、解析する計算機のより並列化が進むと考えられる。近年VMという並列計算機の管理する情報技術が登場しており、DDBJパイプラインも以下の理由で対応する計画である。1、外部解析プログラムの導入の簡便化。2、プログラム群をパッケージ化してより高性能な環境への移植性の向上。実現のためには実行用のプログラム(API)に対応させる必要がある。
2)高速シーケンサー由来の塩基配列データによる多型データベースを構築
平成25年度にデータの拡張、および多型情報のビューワの整備を行う。イネ品種間データは系統数は多いものの、個々の品種の解析量が少ないため、基準となるマップした塩基配列の厚さの最適値の検討が不十分の可能性があり、他の生物種のデータも合わせ多型の選定基準を検討する。またゲノムブラウザや多型領域の配列を描画するプログラムを整備する。

Expenditure Plans for the Next FY Research Funding

DDBJパイプラインのバーチュアルマシン(VM)化は、複数箇所の中から目的に合わせて実行環境を選択できるなど個々のユーザーに利便性をもたらすが、開発には情報処理技術の専門性が求められる。このため環境構築は外部のエンジニアに委託する。その費用を中心に、学会発表の旅費等に使用する。

  • Research Products

    (6 results)

All 2013 2012 Other

All Presentation (4 results) (of which Invited: 2 results) Remarks (2 results)

  • [Presentation] Liverwort Genome Analysis using DDBJ Pipeline and Construction of the Genome Annotation Database2013

    • Author(s)
      Hideki Nagasaki, Takatomo Fujisawa, Takako Mochizuki, Eli Kaminuma, Yasukazu Nakamura et al.
    • Organizer
      International Plant & Animal Genome XXI
    • Place of Presentation
      San Diego, CA, USA
    • Year and Date
      20130112-20130116
  • [Presentation] DDBJパイプラインによるゼニゴケゲノム解析とゲノムアノテーションデータベースの構築2012

    • Author(s)
      長崎 英樹, 藤澤 貴智, 望月 孝子, 神沼 英里, 中村 保一ら
    • Organizer
      第35回日本分子生物学会年会
    • Place of Presentation
      福岡国際会議場・マリンメッセ福岡
    • Year and Date
      20121211-20121214
  • [Presentation] NIGスパコンを利用したNGSアーカイブ配列再利用とクラウド型解析パイプライン実習2012

    • Author(s)
      長崎 英樹, 望月 孝子
    • Organizer
      第164回農林交流センターワークショップ
    • Place of Presentation
      農林水産省農林水産技術会議事務局筑波事務所 情報通信共同利用館(電農館)3階セミナー室
    • Year and Date
      20120906-20120907
    • Invited
  • [Presentation] DDBJパイプラインによる高速シーケンスデータ解析2012

    • Author(s)
      長崎 英樹, 望月 孝子
    • Organizer
      統合データベース講習会 : AJACS名古屋
    • Place of Presentation
      名古屋大学 工学部ES館 サテライトラボラトリーES031
    • Year and Date
      20120727-20120727
    • Invited
  • [Remarks] DDBJ Read Annotation Pipeline Basic Analysis

    • URL

      http://p.ddbj.nig.ac.jp/

  • [Remarks] DDBJ Read Annotation Pipeline High-Level Analysis

    • URL

      http://p-galaxy.ddbj.nig.ac.jp/

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi