2022 Fiscal Year Research-status Report
A machine learning approach to automatic design of genes, proteins and chemical compounds
Project/Area Number |
22K19834
|
Research Institution | Kyushu University |
Principal Investigator |
西郷 浩人 九州大学, システム情報科学研究院, 准教授 (90586124)
|
Project Period (FY) |
2022-06-30 – 2025-03-31
|
Keywords | 機械学習 / 実験計画 / 勾配降下法 / タンパク質 / 化合物 / ガウス過程 |
Outline of Annual Research Achievements |
科学の基本的なプロセスは仮説を立てて実験を行い、それを検証することの繰り返しである。今日、これまで人間の手で行っていた実験の多くは機械で置き換えることが可能になりつつある。問題は、機械にどのような実験計画を指示、設定すれば思い通りの実験結果を得られるかである。そこで本研究課題が目指すのは機械学習を用いた実験計画の設計である。特に、タンパク質・化合物の設計という課題に取り組む。これらの問題の情報学的困難さは、タンパク質・化合物の大きさに対して、探索空間のサイズが指数関数的に増加してしまうことにある。そこで、現実的な時間で局所解の探索を行うためには効率の良いアルゴリズムが必須である。 本研究課題ではまず、タンパク質の類似度として代表的なSmith-Watermanスコアを元にして、その近似スコアをソフトマックス関数を用いて定義する。このスコアは前向きアルゴリズムを用いてSmith-Watermanアルゴリズムと同様に効率的に計算することが出来る。また、その計算過程を保存して後ろ向きアルゴリズムの入力とすることにより、スコアのパラメータ(アミノ酸置換行列)に関する勾配を効率よく計算できることを示した。これは、アノテーションされたタンパク質については回帰や分類による誤分類の最小化を目的関数として、勾配を上昇させる方向にパラメータを学習できることを意味する。実際にロドプシンの吸収波長データ及びエナンチオ選択性データを用いた計算機実験の結果、勾配が正しく計算できることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
タンパク質の類似度とその勾配の計算に関して、計算機実験の為のコードのPythonによる実装を終えており、開発したアルゴリズムの正しさは検証された。
|
Strategy for Future Research Activity |
Pythonによるコードのボトルネックは前向きアルゴリズムである。このため、部分的又は全体のC言語による実装を進行中である。その後、スケーラビリティに関する計算機実験を追加した後に国際会議への投稿を計画している。
|
Causes of Carryover |
物品費の見積もりに少額の誤差があったために残金が生じた。次年度の物品費もしくは旅費と合わせて使用する予定である。
|
Research Products
(2 results)