2023 Fiscal Year Research-status Report
Computational approaches for estimating sample attributes from metagenomic data
Project/Area Number |
23K14279
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
石谷 孔司 国立研究開発法人産業技術総合研究所, 生命工学領域, 主任研究員 (40826062)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | バイオインフォマティクス / メタゲノム / 機械学習 |
Outline of Annual Research Achievements |
DNA鑑定用の多型マーカーでは、その目的が個人間の遺伝的な血縁関係の判定や性別判定が主であり、試料の保存状態、由来組織、個体年齢、健康状態、衛生状態、採取場所等といった個体や試料に関わる属性情報までは分からない。そこで、本課題では、試料中に含まれる様々な生物由来のDNAを含むメタゲノムから試料属性に関する情報を推定するシステムを構築する。本年度は、National Center for Biotechnology Information(https://www.ncbi.nlm.nih.gov)やGenome Taxonomy Database(https://gtdb.ecogenomic.org/)等の公共ゲノムデータベース上にある細菌、真菌、古細菌等の微生物ゲノムを対象として、属・種・系統ごとに様々な環境や由来が異なる微生物のゲノム情報の取得を積極的に進めた。同時に、それらゲノムデータがどういった出自で得られたものかを調査し、ゲノムデータとサンプルの関連情報(属性情報)の対応関係を整理することで、特定の属性情報に共起する生物種の探索等を行った。これにより特定の環境に強く相関を示す微生物、複数の環境に共通して存在する微生物、あるいは特定の環境下において共起している複数の微生物群(グループ)等をリストアップできており、多様な属性情報の推定が可能な機械学習モデルの構築を進めている。また、これと同時に、様々な環境試料に由来するメタゲノムデータや特定環境を想定したシミュレーションデータに対する属性推定モデルの検証や改良を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
メタゲノム由来のゲノムデータ(MAGs)等の拡充に伴い、様々な環境に由来する微生物種の登録件数も増えており、属性情報と生物種の新たな共起関係が見えてきている。データの蓄積は今後も進むと考えられ、こうした関係性を複合的に理解することで様々なサンプル状態の推定に向けたモデルの構築と検証を順調に進めることが出来ている。
|
Strategy for Future Research Activity |
メタゲノム関連のデータベースには、ヒトの腸内細菌叢等の特定の環境に偏った微生物種が多く登録されている。これは、研究事例がその分野に多く見られていることが要因として挙げられる。このデータベースの潜在的な登録傾向の偏りは、属性情報の推定モデルの構築において不均衡データとなってしまい推定結果に悪影響を及ぼすリスクがある。今後は、このサンプリングの偏りを補正するための各種手法を適用する等、この偏りの影響を少なくするための方策を取り入れる予定である。また、様々な環境に普遍的に存在する微生物と特定環境下に存在する微生物を見分けることが出来れば、不均衡データにも対応することが出来ると考えている。さらに、今後、本課題において構築を進めている属性推定モデルやモデルによる推定結果については、その適用性や推定精度の改善に向けて国内外の関連学会や研究会等における発表や意見交換を通して、専門家の意見や多様な事例(アプリケーション)を幅広く取り入れていきたい。
|