機械学習による遺伝子、タンパク質、化合物の自動設計

研究課題

研究課題/領域番号	22K19834
研究種目	挑戦的研究(萌芽)
配分区分	基金
審査区分	中区分62:応用情報学およびその関連分野
研究機関	九州大学
研究代表者	西郷浩人九州大学, システム情報科学研究院, 准教授 (90586124)
研究期間 (年度)	2022-06-30 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円) 2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2022年度: 2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
キーワード	機械学習 / 実験計画 / 勾配降下法 / タンパク質 / 化合物 / ガウス過程 / 物性予測
研究開始時の研究の概要	科学の基本的なプロセスは仮説を立てて実験を行い、それを検証することの繰り返してである。近年は実験装置の機械化や測定装置の高精度化と高速化などにより、実験の質や量が急激に増える傾向にある。しかしながら、次にどのような実験を行うかを決定する実験計画は人間の勘に頼ったままである。そこで本研究課題が目指すのは機械学習を用いた実験計画の自動化である。本提案課題では特に、タンパク質・化合物をターゲットとし、類似度の指標に滑らかな近似を導入することで局所解の効率的な探索を目指す。この結果として、次に実験を行うべきタンパク質や化合物を逐次的かつ効率的に行うことが可能となる。
研究実績の概要	科学の基本的なプロセスは仮説を立てて実験を行い、それを検証することの繰り返しである。自然科学における重要な発見はこの一連のプロセスによって支えられてきた。このシステムを模倣して本研究課題が目指すのは機械学習を用いた実験計画の自動化である。特に、タンパク質・化合物の設計に取り組む。難しさの情報学的原因は、タンパク質・化合物の大きさに対して、探索空間のサイズが指数関数的に増加してしまうことにある。そこで本提案課題では、タンパク質や化合物の類似度の指標に滑らかな近似を導入することで局所解の効率的な探索を実現する。予測モデルとしてガウス過程と組み合わせることにより、次に実験を行うべき条件の決定を逐次的かつ効率的に行うことが可能である。２０２２年度までの調査によって上記を実現するための効率的なアルゴリズムの設計と実際のデータセット（シトクローム熱安定性予測、チャンネルロドプシン局在化予測、バクテリア泥プシン吸光度予測、エポキシヒドラーゼエナンチオ選択性予測）における評価を行い、良好な結果を得た。しかしながら、提案手法を大きなデータセットに適用しようとすると通常のワークステーションでは時間がかかりすぎるのが課題であったため、本年度は以下の点を検討した。 1)勾配計算の安定化: 勾配の行列が半正定値性を満たさなくなるケースが確認されたため、経験的な対策方法を数種類実装した。2)実装の効率化: Pythonによる実装をC＋＋で実装することにより、数倍の高速化を確認した。3)大規模な評価方法の検討: 評価（テスト時）に大量のデータを扱う手法について検討した。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由手法の効率的な実装に想定以上の時間を要した。
今後の研究の推進方策	現在評価中のものを含めていくつかのデータセットで提案手法を評価した後に国際会議に投稿予定である。