本研究では、解析対象の実験サンプル(標的細胞)に様々な原因で混入する細菌・ウイルスなどの微生物(コンタミ)を精度よく同定し、その影響を推定する計算アルゴリズムの研究開発を目的とする。ここでは、次世代シークエンシング(NGS)データを用いて汚染プロファイルを行っている。最終年度では当初の計画通り、アルゴリズムのブラッシュアップと成果発表、解析結果を広く公開するための情報基盤を構築した。 前年度に引き続き、解析パイプラインと複合非負値行列因子分解、ネットワーク解析、遺伝子機能解析を融合したアプローチの研究開発を行い、公共NGSデータを用いて本手法の有効性を評価した。この手法では、NGSリードのホスト由来とコンタミ由来を高確度で見分けるために、独自のスコアリングとランダムサンプリングによる統計的アプローチを加えている。これにより、サンプル全体の汚染度合いの推定と細菌・ウイルス種同定をより精密に行うことができるようになった。この手法を大量のデータセットに適応したところ、標的細胞の培養などの実験条件、シークエンシングを行った研究環境などに依存した汚染プロファイルの違いが明確になった。一方、使用試薬などの付随情報が欠けているため、コンタミ混入原因の特定が難しいことから、本研究での解析情報をデータベース化して公開することで今後の発展につなげたい。この研究成果は国際ジャーナルに原著論文としてまとめ、国内外の学会で発表を行った。 オンラインツールOpenContami(https://openlooper.hgc.jp/opencontami/)に関して、開発手法の移植とコンタミ情報のデータベース化を済ませており、引き続き、1000人ゲノムプロジェクトの全ゲノムNGSデータ2000サンプル以上、GEUVADISプロジェクトのRNA-seq 500サンプル以上の解析データを集約・公開している。
|