近年,インフルエンザを始め様々な病原体の遺伝子情報がデータベース上に大量に蓄積されている.しかし,データセットの巨大化に伴い,多重配列アラインメント,進化系統解析,相同性検索等の解析が困難になりつつある.また,各国における感染症サーベイランス能力の差異により,データセットにサンプリングバイアスを含んでいる可能性がある. そこで本研究では,サンプリング密度の濃い部分に存在する配列を適宜取り除くことによってリサンプリングを行うアルゴリズムを提案した.申請者らは塩基多型度やサンプリングバイアスの軽減能力を他のアルゴリズムと比較してその優位性を示した.また,設計したリサンプリングアルゴリズムをウェブ上に公開した.さらに,申請者らはA 型インフルエンザウイルスに対して本手法を適用し,結果の考察を行う.インフルエンザウイルスが持っている全8セグメントの遺伝子情報を用いて系統樹を作成した後に本手法を適用し,過去に得られた知見を参照しつつ得られた系統樹に対する個別の議論を行った.特に2万以上の配列数を持つセグメントの場合,元のデータセットから作成した系統樹とリサンプリングしたコンパクトなデータセットから作成した系統樹を比較すると,その親子関係が差異が生じるケースが確認された.さらに,A型インフルエンザウイルスのうち鳥を宿主とするものの塩基配列や他の病原体ウイルスの塩基配列についても申請者らのアルゴリズムを適用し,実験を行う研究者らにコンパクトなデータセットを提供することが出来た.
|