研究課題
ショートリードおよびロングリードを基にした既存の構造変異検出ツール(69ツール)の詳細な構造変異検出精度の評価を行った論文を発表した。本論文では、1つのシミュレーションデータおよび5以上のリアルデータを用いて各ツールの構造変異検出精度、検出感度、ブレークポイント検出精度、ジェノタイピング精度、実行時間等を計測し、構造変異のタイプやサイズ別にツールの性能を提示した。さらに、構造変異のタイプやサイズ別にツール間のオーバーラップコールの精度を測定し、ツールの組み合わせによって構造変異の検出精度・感度に大きな差が生じることを示した。ロングリードを用いた構造変異検出ツール(LRsv)を開発し、既存のロングリードを用いた構造変異検出ツール(Sniffle、pbsv、PBHony、SVIM、NanoSV)の性能と比較した。シミュレーションデータおよび複数のリアルデータ(NA12878、NA19240のPacBioおよびNanopore全ゲノムシークエンシングデータ)を用いて構造変異検出精度を測定した結果、LRsvの検出精度・感度は、欠失・挿入・逆位の検出において他のツールと同程度であったが、重複の検出においてはLRsvが最も高かった。この結果は、LRsvにおける重複の検出が挿入配列の詳細な解析によって検出されるためであると考えられる。複数のロングリード構造変異検出ツールからの検出データを用いて、構造変異の検出精度を向上させる手法の開発を進めた。LRsvを含めた4つのツールからの構造変異検出結果と構造変異の存在を示すアライメントリードのシグナルを組み合わせ、ロジスティック回帰および機械学習(ランダムフォレスト、サポートベクターマシン等)を用いた構造変異の真偽の判別を行った。その結果、いずれの機械学習手法においても、単独ツールの構造変異検出精度・感度を上回ることを確認した。
3: やや遅れている
LRsvや機械学習を用いた構造変異検出精度向上手法の開発など研究が進んでいる面はあるが、構造変異検出ツールの評価に関する論文以外に論文発表を行う段階まで進んでいない。この理由として、複数の研究結果を複数の論文にまとめるために、研究に費やす時間が分散されてしまっていることや他の研究プロジェクトに時間を取られていることがあげられる。このため、本研究課題の研究期間は2019年度までの予定であったが、1年間延長して進めることになった。
LRsvとエラー補正したPacBioロングリードデータを用いてNA12878等のゲノムの重複を検出し、重複の詳細なプロファイル(tandem重複およびinterspersed重複の区別、short tandem リピート、レトロエレメントの重複・挿入等)を解析する。必要に応じて検出した構造変異のPCR等を用いた実験検証を行い、LRsvの開発とLRsvを用いた解析結果を1つの論文にまとめる。機械学習を用いた構造変異検出精度向上手法についても、種々のデータを組み合わせて再解析し、結果を論文にまとめる。
現在までにロングリードを用いた高精度な構造変異検出法を確立しているが、より精緻に検出精度を評価するために、 種々のデータを用いた検出精度評価やPCR等による確認実験による検証を行い、論文投稿を行う必要があるため。使用計画として、実験検証のための受託解析や試薬等の購入、および論文投稿のための論文校閲費、出版費に用いる計画である。
すべて 2019
すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (1件)
Genome Biology
巻: 20 ページ: 117
10.1186/s13059-019-1720-5
Cold Spring Harb. Mol. Case Stud.
巻: 5 ページ: a003988
10.1101/mcs.a003988