研究実績の概要 |
1000 Genomes Project(1KG)ハイカバレッジヒト全ゲノムシークエンス(WGS)データ(全3,202サンプル)のリファレンスにマップされていないリード(unmapped reads)を1KG ftpサイトから直接抽出した。Unmapped readsは、paired-end readsの両方のリードがマップされていないリードのみを抽出した。抽出した各リードにはリード名にサンプル名を付加した。抽出したunmapped readsをマッピングするリファレンスとして、NCBIからダウンロードしたRefSeqデータベースを用いた。RefSeq(viral, bacteria, archaea, protozoa, fungi, plant, invertebrate, vertebrate_other)は、2022年2月時点で最新のものを用いた。これらリファレンスに対してunmapped readsをグループごとにマッピングを行なった。さらに、これまでに取得していたBiobank Japan Project(BBJ)WGSデータ(4,229 low coverage WGS dataを含む全7,487サンプル)から抽出したunmapped readsについても同様に、グループごとにRefSeqリファレンスにマッピングを行なった。現在RefSeqリファレンスにマップされたリードの解析を行なっている
|