2017 Fiscal Year Research-status Report
低カバレッジロングリードを用いた効率的ゲノム構造変異同定手法の確立
Project/Area Number |
17K07264
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
小杉 俊一 国立研究開発法人理化学研究所, 統合生命医科学研究センター, 研究員 (30365457)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | structurally variation / long read / PacBio / chromium |
Outline of Annual Research Achievements |
ヒトNA12878の全ゲノムシークエンス・ロングリード由来データを用いて構造変異(SV)を検出するツールの開発を進めた。ロングリード由来データは3つの異なるデータセット (1) error-corrected PacBio reads、(2) two assembly sets of PacBio data、(3) haploid assemblies of chromium data を公共データベース等から取得した。 先ず上記3種のロングリード由来データをリファレンス(hs37d5.fasta)にMinimap2を用いてアライメントを行い、それぞれのbamファイルを取得した。これらbamファイルを用いて、NA12878リファレンスSVのブレークポイント(BP)やサイズをサポートするシグナルが存在するかどうかを検出するプログラムを作成し、解析を行った。その結果、欠失(DEL)の多くではロングリードアライメントデータにDELをサポートするシグナルを検出できたものの、他のタイプのSVではブレークポイントシグナルを観察できなかったり、SVサイズをサポート出来ないものが多く存在した。さらに、ロングリード由来データからde novoにSVを検出するツールの開発を進めた。Minimap2を含め多くのアライメントツールでは、数十ベース以上のサイズのSVが存在するとき、その位置でアライメントが分断されてしまう。この問題を解消することにより、SV検出精度を高めることができると期待されるため、bamファイルのリードの再アライメントを行い、SVをより直接的にアライメント上に表現したbamファイルの作成を行うプログラムの作成を行なった。現在この再アライメントツールと先に示したSV検出ツールを組み合わせたde novo SV検出ツールの開発を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度取得予定であったNA12978のChromiumデータは、10XGenomics社から無償で取得可能となったため、当社のウェブサイトからデータをダウンロードして用いることになった。このため、ロングリードのエラー修正プログラムの完成の前に、Chromiumデータを含めたNA12878のロングリード由来データセットを用いて、SVの検出プログラムの開発に注力することとなった。当初の計画とは順序はずれたものの、概ね研究は順調に進んでいると考えられる。
|
Strategy for Future Research Activity |
ロングリード由来データを用いたSV検出ツールを完成させ、検出したSVの実験的バリデーション作業を行うことにより、ツールのSV検出精度を算出すると共に、ツールの精度向上を図る。にさらに、5x~10xのヒト全ゲノムシークエンスPacBioリードデータ効率的にエラー修正するプログラムの開発を進める。本プログラムでは、リードのアライメントにはblastnを採用していたが、SV検出ツールにも用いたMinimap2を用いてより高速化を図ることを計画している。
|
Causes of Carryover |
平成29年度に受託解析により取得予定であったNA12878のChromiumデータが10XGenomics社より無償公開データとして取得できるようになったため、新バージョンChromiumシステムが受託解析により利用できるまで、当公開データを利用して解析を進めることにした。次年度に回された資金は、最新バージョンのChromiumシステムまたはPacBioシステムを用いたデータの取得に使用する計画である。
|
Research Products
(1 results)