A machine learning approach to automatic design of genes, proteins and chemical compounds
Project/Area Number |
22K19834
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 62:Applied informatics and related fields
|
Research Institution | Kyushu University |
Principal Investigator |
西郷 浩人 九州大学, システム情報科学研究院, 准教授 (90586124)
|
Project Period (FY) |
2022-06-30 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000)
Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2023: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2022: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
|
Keywords | 機械学習 / 実験計画 / 勾配降下法 / タンパク質 / 化合物 / ガウス過程 |
Outline of Research at the Start |
科学の基本的なプロセスは仮説を立てて実験を行い、それを検証することの繰り返してである。近年は実験装置の機械化や測定装置の高精度化と高速化などにより、実験の質や量が急激に増える傾向にある。しかしながら、次にどのような実験を行うかを決定する実験計画は人間の勘に頼ったままである。そこで本研究課題が目指すのは機械学習を用いた実験計画の自動化である。 本提案課題では特に、タンパク質・化合物をターゲットとし、類似度の指標に滑らかな近似を導入することで局所解の効率的な探索を目指す。この結果として、次に実験を行うべきタンパク質や化合物を逐次的かつ効率的に行うことが可能となる。
|
Outline of Annual Research Achievements |
科学の基本的なプロセスは仮説を立てて実験を行い、それを検証することの繰り返しである。今日、これまで人間の手で行っていた実験の多くは機械で置き換えることが可能になりつつある。問題は、機械にどのような実験計画を指示、設定すれば思い通りの実験結果を得られるかである。そこで本研究課題が目指すのは機械学習を用いた実験計画の設計である。特に、タンパク質・化合物の設計という課題に取り組む。これらの問題の情報学的困難さは、タンパク質・化合物の大きさに対して、探索空間のサイズが指数関数的に増加してしまうことにある。そこで、現実的な時間で局所解の探索を行うためには効率の良いアルゴリズムが必須である。 本研究課題ではまず、タンパク質の類似度として代表的なSmith-Watermanスコアを元にして、その近似スコアをソフトマックス関数を用いて定義する。このスコアは前向きアルゴリズムを用いてSmith-Watermanアルゴリズムと同様に効率的に計算することが出来る。また、その計算過程を保存して後ろ向きアルゴリズムの入力とすることにより、スコアのパラメータ(アミノ酸置換行列)に関する勾配を効率よく計算できることを示した。これは、アノテーションされたタンパク質については回帰や分類による誤分類の最小化を目的関数として、勾配を上昇させる方向にパラメータを学習できることを意味する。実際にロドプシンの吸収波長データ及びエナンチオ選択性データを用いた計算機実験の結果、勾配が正しく計算できることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
タンパク質の類似度とその勾配の計算に関して、計算機実験の為のコードのPythonによる実装を終えており、開発したアルゴリズムの正しさは検証された。
|
Strategy for Future Research Activity |
Pythonによるコードのボトルネックは前向きアルゴリズムである。このため、部分的又は全体のC言語による実装を進行中である。その後、スケーラビリティに関する計算機実験を追加した後に国際会議への投稿を計画している。
|
Report
(1 results)
Research Products
(2 results)