研究領域 | 天然物が織り成す化合物潜在空間が拓く生物活性分子デザイン |
研究課題/領域番号 |
23H04886
|
研究種目 |
学術変革領域研究(A)
|
配分区分 | 補助金 |
審査区分 |
学術変革領域研究区分(Ⅱ)
|
研究機関 | 北里大学 (2024) 京都大学 (2023) |
研究代表者 |
鎌田 真由美 北里大学, 未来工学部, 教授 (70749077)
|
研究期間 (年度) |
2023-04-01 – 2028-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
62,010千円 (直接経費: 47,700千円、間接経費: 14,310千円)
2024年度: 7,670千円 (直接経費: 5,900千円、間接経費: 1,770千円)
2023年度: 13,520千円 (直接経費: 10,400千円、間接経費: 3,120千円)
|
キーワード | データ統合 / データモデル / マルチモーダル / マルチモーダルデータの統合 / マルチモーダルデータ / データ基盤構築 |
研究開始時の研究の概要 |
データサイエンスや人工知能の適用において、入力となるデータ準備はその起点であり、情報活用の成功を左右する。天然物および標的タンパク質に関する種々の計測データは実に多様なマルチモーダルデータとして取得されるが、その利活用には、データの持つ多次元性や多階層性を表現するための柔軟なデータモデルと標準化が必要である。そこで本研究では、独自のマルチモーダルな生物活性データに対し、既存の大規模公共データベースとの統合およびモーダル間連携のための新たなデータモデルを策定し、AI Readyな共有データ基盤を構築する。
|
研究実績の概要 |
データサイエンスや人工知能の適用において、入力となるデータ準備はその起点であり、情報活用の成功を左右する。A01班により産み出される天然物および標的タンパク質に関する種々の計測データは多様であるため、データの標準化抜きに情報活用することはできない。また、これらマルチモーダルなデータが持つ多次元性や多階層性を表現するためには、柔軟なデータモデルが必要となる。この独自の生物活性データを既存の大規模データベース情報と統合し、B01班の研究者が独自に開発するNP-VAEやQEPPIなどの様々なアルゴリズムに適用可能なAI Readyな共有データ基盤を構築することで、従来のケミカルバイオロジーでは実現困難であった個別の活性情報の利用を初めて可能にし、化合物潜在空間の飛躍的拡張に繋げることが可能となる。そこで本計画研究班では、マルチモーダルな生物活性データに対し、公共データベースとの統合およびモーダル間連携のための新たなデータモデルを策定し、サイバー生物活性分子デザインラボの中核を担うことで、本学術変革領域の発展に資することを目指す。 2023年度は、A01班との連携により、メタデータの標準化とオントロジーの整備、データ統合のためのデータスキーマ・データモデル策定を行った。具体的には、A01班から提供されるデータについて調査を行うとともに、天然化合物の主要なデータベースの調査を行った。調査の結果に基づき、独自データおよび本領域で重要な公共データベースであるPubChemやChEMBLとの接続性について検討し、メタデータの策定およびデータスキーマの検討を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
該当年度に予定していた調査およびデータモデル策定が概ね完了していることから、概ね順調に進展していると判断した。
|
今後の研究の推進方策 |
2024年度は昨年度策定したデータモデル・スキーマを元にデータ基盤のプロトタイプ策定を実施する。さらに、B01班と連携し、化合物類似検索手法の開発と具体的なデータ活用のためのユースケースおよびクエリの検討を行い、データモデルの改良を実施する。
|