研究課題/領域番号 |
17K07264
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
小杉 俊一 国立研究開発法人理化学研究所, 統合生命医科学研究センター, 研究員 (30365457)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | structurally variation / long read / PacBio / chromium |
研究実績の概要 |
ヒトNA12878の全ゲノムシークエンス・ロングリード由来データを用いて構造変異(SV)を検出するツールの開発を進めた。ロングリード由来データは3つの異なるデータセット (1) error-corrected PacBio reads、(2) two assembly sets of PacBio data、(3) haploid assemblies of chromium data を公共データベース等から取得した。 先ず上記3種のロングリード由来データをリファレンス(hs37d5.fasta)にMinimap2を用いてアライメントを行い、それぞれのbamファイルを取得した。これらbamファイルを用いて、NA12878リファレンスSVのブレークポイント(BP)やサイズをサポートするシグナルが存在するかどうかを検出するプログラムを作成し、解析を行った。その結果、欠失(DEL)の多くではロングリードアライメントデータにDELをサポートするシグナルを検出できたものの、他のタイプのSVではブレークポイントシグナルを観察できなかったり、SVサイズをサポート出来ないものが多く存在した。さらに、ロングリード由来データからde novoにSVを検出するツールの開発を進めた。Minimap2を含め多くのアライメントツールでは、数十ベース以上のサイズのSVが存在するとき、その位置でアライメントが分断されてしまう。この問題を解消することにより、SV検出精度を高めることができると期待されるため、bamファイルのリードの再アライメントを行い、SVをより直接的にアライメント上に表現したbamファイルの作成を行うプログラムの作成を行なった。現在この再アライメントツールと先に示したSV検出ツールを組み合わせたde novo SV検出ツールの開発を進めている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度取得予定であったNA12978のChromiumデータは、10XGenomics社から無償で取得可能となったため、当社のウェブサイトからデータをダウンロードして用いることになった。このため、ロングリードのエラー修正プログラムの完成の前に、Chromiumデータを含めたNA12878のロングリード由来データセットを用いて、SVの検出プログラムの開発に注力することとなった。当初の計画とは順序はずれたものの、概ね研究は順調に進んでいると考えられる。
|
今後の研究の推進方策 |
ロングリード由来データを用いたSV検出ツールを完成させ、検出したSVの実験的バリデーション作業を行うことにより、ツールのSV検出精度を算出すると共に、ツールの精度向上を図る。にさらに、5x~10xのヒト全ゲノムシークエンスPacBioリードデータ効率的にエラー修正するプログラムの開発を進める。本プログラムでは、リードのアライメントにはblastnを採用していたが、SV検出ツールにも用いたMinimap2を用いてより高速化を図ることを計画している。
|
次年度使用額が生じた理由 |
平成29年度に受託解析により取得予定であったNA12878のChromiumデータが10XGenomics社より無償公開データとして取得できるようになったため、新バージョンChromiumシステムが受託解析により利用できるまで、当公開データを利用して解析を進めることにした。次年度に回された資金は、最新バージョンのChromiumシステムまたはPacBioシステムを用いたデータの取得に使用する計画である。
|