2014 Fiscal Year Research-status Report
ヒト全ゲノムシークエンスのための統合アノテーションワークフローの構築
Project/Area Number |
25430183
|
Research Institution | Nagasaki University |
Principal Investigator |
三嶋 博之 長崎大学, 原爆後障害医療研究所, 助教 (10513319)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | ヒトゲノム / データベース生物学 / Ruby / 次世代シークエンサー / ワークフロー / TogoWS |
Outline of Annual Research Achievements |
HiSeq2500シークエンサーによる全ゲノムシークエンシング(WGS)は、対象サンプルについてほぼ終えることができた。また平行して全エクソームシークエンシング(WES)を行ったサンプルのデータの蓄積も進んでいる。これらのデータに対する解析ワークフローは、研究室内部向けのものとして安定して動作させることができるようになった。このワークフローでは対象とする変異のカテゴリーにより使用するオープンソースツールを使い分けている。現在、一塩基バリエーション(SNV)および小規模挿入欠失(small indel)についてはGATK (HaplotypeCaller)、コピー数変異についてはXHMM(WES対象)・cn.MOPS(WGS対象)を、またゲノム構造変異についてはMeerkatを用いた検出を行っている。検出結果に対するアノテーションは、従来のANNOVARを用いたワークフローに、いくつかのデータベースを独自に追加した。その結果たとえば日本人1200人エクソーム頻度情報などは、疾患に関係しない多型サイトの除去に有用であった。フォーマット整形のためのスクリプト・整形済データはGitHubをとおして研究者が自由にダウンロードして利用可能としている(https://github.com/misshie/hgvd2annovar )。またこのユーザーからのBEDファイルフォーマットへの整形の要望に答えた拡張も行い、BEDファイルを使用する商用ソフトウェアからも利用できるようになった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
ENCODE全ゲノム情報の含む多数のデータベースへのアクセスの一元化はアクセスはTogoWSを用いて実現できたが、UCSCゲノムブラウザ情報のRDF化についてはまだ調査・設計段階であり実装に至っていない。実際のプロジェクトによる実証のためのヒト全ゲノムデータを含むデータの蓄積は順調に進んでおり、今後の実証実験のために使用することができるようになった。
|
Strategy for Future Research Activity |
整備してきたワークフローについては、現在使用中の計算機構成やシステムソフトウェア構成の環境に強く依存している。環境の構築法法についてある程度ドキュメント化することは可能であるが、だれでも再現できるようにすることは困難である。この点については、各種の仮想化技術をワークフローに取り込む必要がある。また、RDF・オントロジーをベースにしたアノテーション技術についても、優れたソフトウェアが公開されはじめており、これらを積極的に取り込んで最終的なワークフローとする必要がある。
|
Causes of Carryover |
本年度においては、解析ワークフロー整備などが中心となり、実際の確認/実証実験に入ることは無かったため、次年度使用額が生じた
|
Expenditure Plan for Carryover Budget |
前年度を踏まえたワークフロー整備、及びワークフロー共有のための打ち合わせ・発表、研鑽器環境整備をおこない、さらに全ゲノムシークエンスデータにたいする解析結果の実証実験に用いる予定である。
|