研究課題/領域番号 |
24510273
|
研究機関 | 国立遺伝学研究所 |
研究代表者 |
長崎 英樹 国立遺伝学研究所, 生命情報研究センター, 特任研究員 (70624451)
|
キーワード | 次世代シーケンサー / リシーケンス / SNP / de novoアセンブリ / クラウドコンピューティング / HLA |
研究概要 |
高速シーケンサー由来塩基配列解析システム、DDBJパイプラインについて 研究代表者らが参画しているDNA Data Bank of Japan (DDBJ)では欧米と共同で国際塩基配列データベース(INSDC)を構築し、高速シーケンサー由来の塩基配列の登録業務と公開を行っている。しかしこれらの配列データは一回の解析で6千億bpにおよぶほど膨大で解析 には高い情報処技術が必要となる。そのため解析を促進し、配列登録の増加や公開データの利用を期待して、操作を単純化した解析システム、DDBJ Read Annotation Pipeline (DDBJパイプライン)を構築している。DDBJパイプラインは、インターネットを介したクラウドコンピューティングの技術を用いて、国立遺伝学研究所のスーパーコンピュータシステム上で稼働し公開されている(http://p.ddbj .nig.ac.jp)。 平成25年度の実績について DDBJパイプラインの機能拡張として多型解析やde novoアセンブル配列の遺伝子構造解析といったより高度な解析機能の追加を行った内容で、DNA Research誌に掲載された(DNA Res. 2013 Aug;20(4):383-90.)。さらに、ヒト白血球型抗原(Human Leukocyte Antigen; HLA)のタイピングをDDBJパイプラインの解析機能として追加した。DDBJパイプラインの解析機能に新たにこの件に関しては共著者として論文が投稿中である。また、DDBJパイプラインのバーチュアルマシン(VM)化を行っている。近年VMという並列計算機の管理する情報技術が登場しており、DDBJパイプラインも、外部解析プログラムの導入やプログラム群のパッケージ化による高性能な環境への移植性の向上を目指して対応中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
DDBJパイプラインの全容をまとめた論文はDNA Research誌(DNA Res. 2013 Aug;20(4):383-90.)に掲載された。平成24年5月現在の登録ユーザー数は464名となり、実際に利用されている。また、DDBJパイプラインの新たな利用法としてヒト白血球型抗原(Human Leukocyte Antigen; HLA)のタイピングをDDBJパイプラインの解析機能として追加した。HLAの遺伝視座はヒトゲノム中で高度な多型性を示す領域で、100以上の疾患、薬剤副作用との関連を示す。タイピングのプログラム自体は、Hosomichiら(BMC Genomics 2013, 14:355)によって発表されたものであり、当初の計画には含まれていなかったが、成果物の新たな利用法になると考え、追加し公開した。現在共同研究として論文を一報投稿中である。 DDBJパイプラインのバーチュアルマシン(VM)化は、今年度から来年度にかけて行う。現在、国立遺伝学研究所のスパコンシステムの利用も考慮の上、スパコン上の領域の確保など調整中である。パイプラインのプログラム群のVMパッケージ化も現在行っている最中である。
|
今後の研究の推進方策 |
ひきつづき解析パイプラインのバーチュアルマシン(VM)化を行う。 高速シーケンサーによる解読データは装置の高性能化が続くかぎり増加すると考えられる。それに伴い、DDBJパイプラインもVMという並列計算機の管理する情報技術を、"外部解析プログラムの導入の簡便化"および"プログラム群をパッケージ化してより高性能な環境への移植性の向上"を目的として導入を計画中である。VM化することで実際に計算処理を行う計算機を選択することが可能となる。個人情報につながるヒト由来のデータなど扱いに注意を要するデータの場合、自前で計算機環境を用意し、その上でDDBJパイプラインを実行することも可能となる。また、そこまでの機密性を要しないユーザーに対しては国立遺伝学研究所のスパコンシステムでの利用を計画している。そのため、同所のスパコンシステムでの実行環境の整備をひきつづき行い、プログラム群のVMパッケージ化は次年度で完成させ、公開を予定している。
|
次年度の研究費の使用計画 |
DDBJパイプラインの開発において、自分たちと外部委託のエンジニアと作業分担を検討し直して、委託した開発費用が節約されたから。 今年度の節約された経費は以下の目的で活用する計画である。 高速シーケンサーの高性能化と解読データの増加に伴い、DDBJパイプラインもVMという並列計算機の管理する情報技術を、"外部解析プログラムの導入の簡便化"および"プログラム群をパッケージ化してより高性能な環境への移植性の向上"を目的として導入を計画中である。VM化することで実際に計算処理を行う計算機を選択することが可能となる。個人情報につながるヒト由来のデータなど扱いに注意を要するデータの場合、自前で計算機環境を用意し、その上でDDBJパイプラインを実行することも可能となる。また、そこまでの機密性を要しないユーザーに対しては国立遺伝学研究所のスパコンシステムでの利用を計画している。そのため、同所のスパコンシステムでの実行環境の整備をひきつづき行い、プログラム群のVMパッケージ化は次年度で完成させ、公開を予定している。
|