2021 Fiscal Year Research-status Report
Development of a k-mer-based GWAS method for metagenomic analysis
Project/Area Number |
21K19211
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)
|
Project Period (FY) |
2021-07-09 – 2023-03-31
|
Keywords | メタゲノム / k-mer解析 / アセンブル |
Outline of Annual Research Achievements |
本研究は、メタゲノム手法に基づいたシークエンスデータの比較解析から、二群の違いを引き起こす要因となるゲノムの相違箇所を直接的に取得する手法の開発を目指すものである。一般的なメタゲノム解析では、シークエンス・アセンブル・ビンニングという工程を経て、環境を構成する菌種ごとのゲノム構築を目指した上で、得られた結果同士の比較を行う。しかし、メタゲノム解析により、構成する菌種のゲノム再構築を実現することは難しく、環境下の一部の菌種ゲノムの再構築に止まることが多い。複数環境下で比較に足る菌種となるとさらにその一部となってしまう。 そこで本研究ではメタゲノム解析本来の目的に立ち返り、ある二群の環境サンプルから取得したメタゲノムデータを直接的に比較し、二群の違いを引き起こす要因となるゲノムの相違箇所を統計的に抽出し、その差分箇所のみのアセンブルを実施、明らかにするという手法の開発を目指すものである。 この目的実現のため、本年度は各環境下で得られたシークエンスデータ(short readタイプ)からk-mer部分配列の頻度情報を取得し、群間比較により環境特異的なk-merを抽出するプログラムの開発を実施した。まずプロトタイプとして、メタゲノムではなく通常の二倍体ゲノムを持つ生物種の二個体データを対象とした解析を実施した。また、抽出されたk-merのローカルアセンブルを行うルーチンの開発も合わせて実施し、シークエンスデータを入力として、個体間で差異のある部分のみをアセンブルされた配列として抽出できる一連の流れの実現を達成した。さらに、本研究開発においてテストに必要となる二倍体ゲノムおよびメタゲノムサンプルのシークエンスデータ取得も合わせて実施した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初計画した研究方法に従って、環境間で差異のあるk-merを取得後アセンブルするまでの一連のパイプラインを開発し、二倍体ゲノムサンプルを用いた検証を実施できた点においては想定通りの進捗である。しかし、同時にシークエンスエラーに起因したk-merの処理方法や、正規化、繰り返し配列に起因するアセンブルの問題など、計画を立てた当初には想定していなかった問題への対処がメタゲノムサンプルへの適用においては必須であることも判明した。このため、次年度はこれら新しく検討が必要になった項目への対応が必要であるため、想定よりは遅れて研究が遂行されるものと思われる。
|
Strategy for Future Research Activity |
次年度においては、まず今年度開発した解析パイプラインを用いたベンチマークテストを、多くの二倍体ゲノム実サンプルへと適用することにより、改良を続ける。ゲノムが既に公開されているサンプルを用いることにより、「正解」を用いた効率的なベンチマークが可能になることが期待される。二倍体ゲノムを用いたベンチマークを十分実施したのち、メタゲノムサンプルへの適用を図る。 この際には、今年度行った解析で明らかとなったシークエンスエラーに起因したk-merの処理方法や、正規化、繰り返し配列に起因するアセンブルの問題への対応をアルゴリズムとして組み込む予定である。特に、正規化に関しては二倍体ゲノムとは異なり、頻度分布からピークを検出し、そのピークカバレッジを揃える方法の採用がメタゲノムでは極めて困難であることが想定されるため、複数サンプル間で共通するk-merの頻度を比較しての正規化や、RNA-seq解析における二条件データの正規化などを参考に開発を進める予定である。 また、得られたアセンブル結果は各条件において特異的に認められる部分配列であるが、その配列のみからでは結果の解釈につなげることは難しい。そのため、遺伝子予測手法などと絡め、特異的にみつかった配列からのアノテーションなど生物学的解釈が可能となるような注釈づけも合わせて実施する予定である。
|
Causes of Carryover |
本年度はコロナ禍ということもあり、ベンチマークに使用するためのデータ取得を十分に行うことができなかったことと、それに伴う共同研究先への出張なども十分には行えなかったため、次年度への繰越が多く発生した。一方、公開データなどを用いたアルゴリズム開発は想定通り行えたと考えられる。 しかし、より多くの実サンプルデータでのテストが必要であるため、次年度は、この遅れを取り戻すべく積極的にサンプリングなどのデータ取得を実施する予定である。
|
Research Products
(1 results)