研究課題/領域番号 |
17K07264
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
小杉 俊一 国立研究開発法人理化学研究所, 生命医科学研究センター, 研究員 (30365457)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | structural variation / sv / long read |
研究実績の概要 |
前年度に引き続き、ロングリードを用いた構造変異検出ツール(LRsv)の開発を進めた。ショートリードデータを併せて活用することにより、より精度を向上させることに成功した。具体的には、NA12878のショートリードアライメントbamファイルを用い、NA12878ロングリードデータで検出した構造変異部位に観察されるショートリードアライメントのシグナル(clipped-reads、discordant paired-end reads、read depth等)を計測した。ロングリードデータで検出した構造変異は、既存のNA12878構造変異のリファレンスデータを基に、真と偽に二分した。構造変異の真偽を目的変数、ショートリードのアライメントシグナル等を説明変数としたロジスティック回帰分析を行い、真偽の構造変異間で得られるlogitPの分布差から、閾値logitPを各構造変異種類およびサイズごとに決定した。得られた閾値を用いて、異なるロングリードデータおよびショートリードデータを用いて検出された構造変異の真偽の判別を行った。真と判定された構造変異の精度(precision)は、80%~90%に達した。また、本手法では、本来であれば精度が低く検出から漏れる構造変異(例えば、1ロングリードのみから検出される構造変異)についてもショートリードデータを基に真偽を予測できるため、低カバレッジのロングリードデータにおいて構造変異の検出力を高めることが可能となる。 この他に、ショートリードおよびロングリードを基にした既存の構造変異検出ツール(69ツール)の詳細な構造変異検出能の評価を行った。シミュレーションデータおよびリアルデータを用い、各構造変異種類およびサイズごとの各ツールの検出精度(precision、recall)およびbreakpoint検出精度、genotyping精度の評価を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ロングリードのエラー修正ツールの開発は遅れているものの、低カバレッジロングリードデータから構造変異を精度高く検出するツールの開発は予定よりも進んでいる。
|
今後の研究の推進方策 |
ロングリードデータからの構造変異検出手法に関しては、より多様なロングリードデータセットを用いて検出精度を評価し、多様なデータで安定した検出精度を達成できるよう改変を進める。また、ショートリードデータの活用に関して、ランダムフォレストやサポートベクターマシンなどの機械学習を取り入れ、ロジスティック回帰による手法との比較および複数手法の組み合わせによる構造変異検出精度の向上を模索する。 ロングリードのエラー修正手法に関しては、すでにプログラムの枠組みは開発済みであるが、最大の課題である実行速度向上のため、アライメントツールに用いていたblastnをMinimap2に変更して改変を進める計画である。最終的に、ヒト全ゲノムデータに対しても利用可能なエラー修正精度の高いツールの開発を目指す。
|
次年度使用額が生じた理由 |
開発した構造変異検出ツールの性能評価のために、検出した構造変異のPCRを用いた大規模実験検証を行う予定であったが、開発ツールをより完成させた段階で本検証を行うことが賢明と判断したため、次年度繰越しを行う結果となった。次年度繰越しとなった助成金は、検出された構造変異のPCR実験確認のため、PCRに用いる人工オリゴヌクレオチド、PCR酵素等の購入に用いる計画である。
|