研究課題/領域番号 |
25430183
|
研究機関 | 長崎大学 |
研究代表者 |
三嶋 博之 長崎大学, 原爆後障害医療研究所, 助教 (10513319)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | ヒトゲノム / データベース生物学 / Ruby / 次世代シークエンサー / ワークフロー / TogoWS |
研究実績の概要 |
HiSeq2500シークエンサーによる全ゲノムシークエンシング(WGS)は、対象サンプルについてほぼ終えることができた。また平行して全エクソームシークエンシング(WES)を行ったサンプルのデータの蓄積も進んでいる。これらのデータに対する解析ワークフローは、研究室内部向けのものとして安定して動作させることができるようになった。このワークフローでは対象とする変異のカテゴリーにより使用するオープンソースツールを使い分けている。現在、一塩基バリエーション(SNV)および小規模挿入欠失(small indel)についてはGATK (HaplotypeCaller)、コピー数変異についてはXHMM(WES対象)・cn.MOPS(WGS対象)を、またゲノム構造変異についてはMeerkatを用いた検出を行っている。検出結果に対するアノテーションは、従来のANNOVARを用いたワークフローに、いくつかのデータベースを独自に追加した。その結果たとえば日本人1200人エクソーム頻度情報などは、疾患に関係しない多型サイトの除去に有用であった。フォーマット整形のためのスクリプト・整形済データはGitHubをとおして研究者が自由にダウンロードして利用可能としている(https://github.com/misshie/hgvd2annovar )。またこのユーザーからのBEDファイルフォーマットへの整形の要望に答えた拡張も行い、BEDファイルを使用する商用ソフトウェアからも利用できるようになった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
ENCODE全ゲノム情報の含む多数のデータベースへのアクセスの一元化はアクセスはTogoWSを用いて実現できたが、UCSCゲノムブラウザ情報のRDF化についてはまだ調査・設計段階であり実装に至っていない。実際のプロジェクトによる実証のためのヒト全ゲノムデータを含むデータの蓄積は順調に進んでおり、今後の実証実験のために使用することができるようになった。
|
今後の研究の推進方策 |
整備してきたワークフローについては、現在使用中の計算機構成やシステムソフトウェア構成の環境に強く依存している。環境の構築法法についてある程度ドキュメント化することは可能であるが、だれでも再現できるようにすることは困難である。この点については、各種の仮想化技術をワークフローに取り込む必要がある。また、RDF・オントロジーをベースにしたアノテーション技術についても、優れたソフトウェアが公開されはじめており、これらを積極的に取り込んで最終的なワークフローとする必要がある。
|
次年度使用額が生じた理由 |
本年度においては、解析ワークフロー整備などが中心となり、実際の確認/実証実験に入ることは無かったため、次年度使用額が生じた
|
次年度使用額の使用計画 |
前年度を踏まえたワークフロー整備、及びワークフロー共有のための打ち合わせ・発表、研鑽器環境整備をおこない、さらに全ゲノムシークエンスデータにたいする解析結果の実証実験に用いる予定である。
|