A machine learning approach to automatic design of genes, proteins and chemical compounds
Project/Area Number |
22K19834
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 62:Applied informatics and related fields
|
Research Institution | Kyushu University |
Principal Investigator |
西郷 浩人 九州大学, システム情報科学研究院, 准教授 (90586124)
|
Project Period (FY) |
2022-06-30 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000)
Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2023: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2022: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
|
Keywords | 機械学習 / 実験計画 / 勾配降下法 / タンパク質 / 化合物 / ガウス過程 / 物性予測 |
Outline of Research at the Start |
科学の基本的なプロセスは仮説を立てて実験を行い、それを検証することの繰り返してである。近年は実験装置の機械化や測定装置の高精度化と高速化などにより、実験の質や量が急激に増える傾向にある。しかしながら、次にどのような実験を行うかを決定する実験計画は人間の勘に頼ったままである。そこで本研究課題が目指すのは機械学習を用いた実験計画の自動化である。 本提案課題では特に、タンパク質・化合物をターゲットとし、類似度の指標に滑らかな近似を導入することで局所解の効率的な探索を目指す。この結果として、次に実験を行うべきタンパク質や化合物を逐次的かつ効率的に行うことが可能となる。
|
Outline of Annual Research Achievements |
科学の基本的なプロセスは仮説を立てて実験を行い、それを検証することの繰り返しである。自然科学における重要な発見はこの一連のプロセスによって支えられてきた。 このシステムを模倣して本研究課題が目指すのは機械学習を用いた実験計画の自動化である。特に、タンパク質・化合物の設計に取り組む。難しさの情報学的原因は、タンパク質・化合物の大きさに対して、探索空間のサイズが指数関数的に増加してしまうことにある。そこで本提案課題では、タンパク質や化合物の類似度の指標に滑らかな近似を導入することで局所解の効率的な探索を実現する。予測モデルとしてガウス過程と組み合わせることにより、次に実験を行うべき条件の決定を逐次的かつ効率的に行うことが可能である。 2022年度までの調査によって上記を実現するための効率的なアルゴリズムの設計と実際のデータセット(シトクローム熱安定性予測、チャンネルロドプシン局在化予測、バクテリア泥プシン吸光度予測、エポキシヒドラーゼエナンチオ選択性予測)における評価を行い、良好な結果を得た。 しかしながら、提案手法を大きなデータセットに適用しようとすると通常のワークステーションでは時間がかかりすぎるのが課題であったため、本年度は以下の点を検討した。 1)勾配計算の安定化: 勾配の行列が半正定値性を満たさなくなるケースが確認されたため、経験的な対策方法を数種類実装した。2)実装の効率化: Pythonによる実装をC++で実装することにより、数倍の高速化を確認した。3)大規模な評価方法の検討: 評価(テスト時)に大量のデータを扱う手法について検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
手法の効率的な実装に想定以上の時間を要した。
|
Strategy for Future Research Activity |
現在評価中のものを含めていくつかのデータセットで提案手法を評価した後に国際会議に投稿予定である。
|
Report
(2 results)
Research Products
(5 results)