2023 Fiscal Year Research-status Report
A machine learning approach to automatic design of genes, proteins and chemical compounds
Project/Area Number |
22K19834
|
Research Institution | Kyushu University |
Principal Investigator |
西郷 浩人 九州大学, システム情報科学研究院, 准教授 (90586124)
|
Project Period (FY) |
2022-06-30 – 2025-03-31
|
Keywords | 機械学習 / 実験計画 / 勾配降下法 / タンパク質 / 化合物 / ガウス過程 / 物性予測 |
Outline of Annual Research Achievements |
科学の基本的なプロセスは仮説を立てて実験を行い、それを検証することの繰り返しである。自然科学における重要な発見はこの一連のプロセスによって支えられてきた。 このシステムを模倣して本研究課題が目指すのは機械学習を用いた実験計画の自動化である。特に、タンパク質・化合物の設計に取り組む。難しさの情報学的原因は、タンパク質・化合物の大きさに対して、探索空間のサイズが指数関数的に増加してしまうことにある。そこで本提案課題では、タンパク質や化合物の類似度の指標に滑らかな近似を導入することで局所解の効率的な探索を実現する。予測モデルとしてガウス過程と組み合わせることにより、次に実験を行うべき条件の決定を逐次的かつ効率的に行うことが可能である。 2022年度までの調査によって上記を実現するための効率的なアルゴリズムの設計と実際のデータセット(シトクローム熱安定性予測、チャンネルロドプシン局在化予測、バクテリア泥プシン吸光度予測、エポキシヒドラーゼエナンチオ選択性予測)における評価を行い、良好な結果を得た。 しかしながら、提案手法を大きなデータセットに適用しようとすると通常のワークステーションでは時間がかかりすぎるのが課題であったため、本年度は以下の点を検討した。 1)勾配計算の安定化: 勾配の行列が半正定値性を満たさなくなるケースが確認されたため、経験的な対策方法を数種類実装した。2)実装の効率化: Pythonによる実装をC++で実装することにより、数倍の高速化を確認した。3)大規模な評価方法の検討: 評価(テスト時)に大量のデータを扱う手法について検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
手法の効率的な実装に想定以上の時間を要した。
|
Strategy for Future Research Activity |
現在評価中のものを含めていくつかのデータセットで提案手法を評価した後に国際会議に投稿予定である。
|
Causes of Carryover |
未使用額は158円であり、ほぼ残額はない。次年度に消耗品費として計上する予定である。
|
Research Products
(3 results)