研究課題/領域番号 |
22K19834
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分62:応用情報学およびその関連分野
|
研究機関 | 九州大学 |
研究代表者 |
西郷 浩人 九州大学, システム情報科学研究院, 准教授 (90586124)
|
研究期間 (年度) |
2022-06-30 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2022年度: 2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
|
キーワード | 機械学習 / 実験計画 / 勾配降下法 / タンパク質 / 化合物 / ガウス過程 |
研究開始時の研究の概要 |
科学の基本的なプロセスは仮説を立てて実験を行い、それを検証することの繰り返してである。近年は実験装置の機械化や測定装置の高精度化と高速化などにより、実験の質や量が急激に増える傾向にある。しかしながら、次にどのような実験を行うかを決定する実験計画は人間の勘に頼ったままである。そこで本研究課題が目指すのは機械学習を用いた実験計画の自動化である。 本提案課題では特に、タンパク質・化合物をターゲットとし、類似度の指標に滑らかな近似を導入することで局所解の効率的な探索を目指す。この結果として、次に実験を行うべきタンパク質や化合物を逐次的かつ効率的に行うことが可能となる。
|
研究実績の概要 |
科学の基本的なプロセスは仮説を立てて実験を行い、それを検証することの繰り返しである。今日、これまで人間の手で行っていた実験の多くは機械で置き換えることが可能になりつつある。問題は、機械にどのような実験計画を指示、設定すれば思い通りの実験結果を得られるかである。そこで本研究課題が目指すのは機械学習を用いた実験計画の設計である。特に、タンパク質・化合物の設計という課題に取り組む。これらの問題の情報学的困難さは、タンパク質・化合物の大きさに対して、探索空間のサイズが指数関数的に増加してしまうことにある。そこで、現実的な時間で局所解の探索を行うためには効率の良いアルゴリズムが必須である。 本研究課題ではまず、タンパク質の類似度として代表的なSmith-Watermanスコアを元にして、その近似スコアをソフトマックス関数を用いて定義する。このスコアは前向きアルゴリズムを用いてSmith-Watermanアルゴリズムと同様に効率的に計算することが出来る。また、その計算過程を保存して後ろ向きアルゴリズムの入力とすることにより、スコアのパラメータ(アミノ酸置換行列)に関する勾配を効率よく計算できることを示した。これは、アノテーションされたタンパク質については回帰や分類による誤分類の最小化を目的関数として、勾配を上昇させる方向にパラメータを学習できることを意味する。実際にロドプシンの吸収波長データ及びエナンチオ選択性データを用いた計算機実験の結果、勾配が正しく計算できることを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
タンパク質の類似度とその勾配の計算に関して、計算機実験の為のコードのPythonによる実装を終えており、開発したアルゴリズムの正しさは検証された。
|
今後の研究の推進方策 |
Pythonによるコードのボトルネックは前向きアルゴリズムである。このため、部分的又は全体のC言語による実装を進行中である。その後、スケーラビリティに関する計算機実験を追加した後に国際会議への投稿を計画している。
|