研究実績の概要 |
1000 Genomes Project(1KG)ハイカバレッジヒト全ゲノムシークエンス(WGS)データ(全3,202サンプル)のリファレンスにマップされていないリード (unmapped reads)を1KG ftpサイトから直接抽出し、NCBIからダウンロードしたRefSeqデータ ベース(viral, bacteria, archaea, protozoa, fungi, plant, invertebrate, vertebrate_other)にMinimap2を用いてマッピングを行った。各リードは由来するサンプルの情報に関するタグ付けされているため、検出された挿入部位がどのサンプル由来かを識別できる。現在挿入部位を効率的に精度良く検出するためのソフトウェアを開発中である。特にpaired-end readsの片方しかレファレンスにマッピングされない場合のデータの処理や同じリードが複数のリファレンスにマッピングされた場合の処理を組み入れる必要がある。
|