2022 Fiscal Year Annual Research Report
Development of a k-mer-based GWAS method for metagenomic analysis
Project/Area Number |
21K19211
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)
|
Project Period (FY) |
2021-07-09 – 2023-03-31
|
Keywords | メタゲノム / k-mer解析 / アセンブル |
Outline of Annual Research Achievements |
本研究は、表原型に違いのある二群に対してメタゲノム解析を実施することで、その表現型の違いと強く相関していると考えられるゲノム領域を効率的に抽出する手法を開発することを目的として実施された。当初計画では、二群由来のメタゲノムデータを一旦k-merおよびその頻度情報として落とし込み、直接比較によって有意差のあるk-mer情報のみを抽出、抽出されたk-merをアセンブルすることで実現を目指していた。 しかしながら、実データを用いて解析したところ、抽出されるk-merが予定外に多く、またアセンブル結果も短い断片配列が大量に生じてしまうこととなった。これは、シークエンスエラーに起因するk-merを除去しきれないことによりk-merの種類数が多くなりすぎ、それに伴いアセンブル時に分岐も頻度高く発生することに起因していることが推察された。 この分析結果を踏まえ、研究目的の実現方法を再考し、二群のデータ全てを用いてメタゲノムアセンブルを行った上で差のある箇所を抽出できる手法の開発に取り組むこととした。配列差のある領域を分岐構造を含むバブル構造として取り扱えるようなアルゴリズムを組み込みアセンブルすることと、両群の全データを用いることによりエラー由来のデータと実在するデータとの区別をk-mer頻度差で行えるようになったことにより、長くアセンブル結果を得ることに成功した。成果をメタゲノムアセンブラとして公開、論文発表するとともに、分岐構造を許したメタゲノムアセンブルの実現により、参照配列のない菌種においても、両群間で配列差を持つ箇所を抽出できるようになるなどの具体的な成果を挙げることにも成功した。しかしその一方で、両群間で差異のあるゲノム領域、その上に座乗する遺伝子を抽出することはできたものの、二群の表現型の違いを説明できる箇所の抽出までには至っていないため、今後開発を続ける必要が残っている。
|