ある環境を構成する個々の細菌ゲノムの再構築を目指したメタゲノムアセンブルは幅広く実施されているが、その鍵となるのは情報解析手法である。一般的には、シークエンスデータをアセンブル後、得られた配列を特徴量に基づいてクラスタリングすることで分類し、個々の細菌ゲノムの再構築を目指す。様々なクラスタリング手法が開発されているが、アセンブル配列が短い場合には特徴量抽出が困難となり、精度高くクラスタリングすることは原理的に難しい。その点本研究で取り扱うHi-Cデータはアセンブル長に依存しないため、新たな情報量を付与することが可能となり、既存手法との組み合わせによりブレークスルーを与えることが期待される。
|