研究課題/領域番号 |
24510273
|
研究種目 |
基盤研究(C)
|
研究機関 | 国立遺伝学研究所 |
研究代表者 |
長崎 英樹 国立遺伝学研究所, 生命情報研究センター, 特任研究員 (70624451)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 次世代シーケンサー / リシーケンス / SNP / RNA-Seq / ChIP-Seq / denovo アセンブル / クラウドコンピューティング |
研究概要 |
1)高速シーケンサー由来塩基配列解析システム、DDBJパイプラインについて 研究代表者らが参画しているDNA Data Bank of Japan (DDBJ)では欧米と共同で国際塩基配列データベース(INSDC)を構築し、高速シーケンサー由来の塩基配列の登録業務と公開を行っている。しかしこれらの配列データは一回の解析で6千億bpにおよぶほど膨大で解析には高い情報処技術が必要となる。そのため解析を促進し、配列登録の増加や公開データの利用を期待して、操作を単純化した解析システム、DDBJ Read Annotation Pipeline (DDBJパイプライン)を構築している。DDBJパイプラインは、インターネットを介したクラウドコンピューティングの技術を用いて、国立遺伝学研究所のスーパーコンピュータシステム上で稼働し公開されている(http://p.ddbj.nig.ac.jp)。 平成24年度においてはパイプラインの機能拡張として多型解析やde novoアセンブル配列の遺伝子構造解析といったより高度な解析機能の追加を行った。以上の内容で論文を執筆し、DNA Research誌に投稿、受理された(現在掲載巻は未定)。 2)高速シーケンサー由来の塩基配列データによる多型データベースを構築 近縁生物種間のSingle Nucletide Polymorphism (SNP)等の変異解析は高速シーケンサーの登場によって加速された研究分野である。しかし変異の判断基準は、解析プログラムや設定値の違いで個々の研究で異なる。研究代表者らは公開配列データを用いて共通の手順で解析することでゲノム横断的な解析になると考えた。平成24年度においてはDDBJより公開されているイネ品種678系統をもとに多型データを解析している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
1)高速シーケンサー由来塩基配列解析システム、DDBJパイプラインについて 平成24年度の目的はDDBJパイプラインにおける「高次解析実行環境の整備」だった。高速シーケンサーの解析は基本的に初期段階で膨大な配列データによる参照配列へのマッピングやde novoアセンブルといった比較的コンピュータに負荷がかかるが一元的な処理が行われる。この処理は基礎解析パイプラインとしてすでに構築ずみであったが、実際に研究者が望むデータはマッピングによる配列間の違いの検出結果や遺伝子発現、アセンブルされた配列中の遺伝子情報など、さらにもう一段階上の二次解析による結果である。また、これらの解析は研究の流行で多様化が進む可能性がある。これらの解析をサポートできたため利用者の利便性は向上したと考えている。またこれた高次解析のパイプラインはWebアプリケーションのGalaxyを基礎としており、エンジニア以外の人物でも部分的な改良が可能で、今後の解析多様化にも対応できると考えている。また、DDBJパイプラインの利用登録者は平成25年5月現在関係者を除き約140人となっており活用が広まりつつある。また、論文も受理されたいるため順調であると考える。 2)高速シーケンサー由来の塩基配列データによる多型データベースを構築 平成24年度の目的は「データ整備、多型検出基準の策定」であった。公開されているイネ品種678系統の高速シーケンサーによって解読された塩基配列データを完全決定された日本型イネ品種日本晴にマップを行ったデータと(独)農業食品産業技術総合研究機構果樹研究所より提供された高速シーケンサー配列とサンガー法のシーケンシングによる多型情報を元に基準を設定、個々の配列の不正確な塩基の除去と3x以上の重なりでマップされた領域のみの多型を検出した。以上より順調に進行していると考える。
|
今後の研究の推進方策 |
1)高速シーケンサー由来塩基配列解析システム、DDBJパイプラインについて 平成25年度に解析パイプラインのバーチュアルマシン(VM)化を行う。高速シーケンサーによる解読データは装置の高性能化が続くかぎり増加すると考えられる。それに伴い、解析する計算機のより並列化が進むと考えられる。近年VMという並列計算機の管理する情報技術が登場しており、DDBJパイプラインも以下の理由で対応する計画である。1、外部解析プログラムの導入の簡便化。2、プログラム群をパッケージ化してより高性能な環境への移植性の向上。実現のためには実行用のプログラム(API)に対応させる必要がある。 2)高速シーケンサー由来の塩基配列データによる多型データベースを構築 平成25年度にデータの拡張、および多型情報のビューワの整備を行う。イネ品種間データは系統数は多いものの、個々の品種の解析量が少ないため、基準となるマップした塩基配列の厚さの最適値の検討が不十分の可能性があり、他の生物種のデータも合わせ多型の選定基準を検討する。またゲノムブラウザや多型領域の配列を描画するプログラムを整備する。
|
次年度の研究費の使用計画 |
DDBJパイプラインのバーチュアルマシン(VM)化は、複数箇所の中から目的に合わせて実行環境を選択できるなど個々のユーザーに利便性をもたらすが、開発には情報処理技術の専門性が求められる。このため環境構築は外部のエンジニアに委託する。その費用を中心に、学会発表の旅費等に使用する。
|