Project/Area Number |
22H00532
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Kyoto University |
Principal Investigator |
阿久津 達也 京都大学, 化学研究所, 教授 (90261859)
|
Co-Investigator(Kenkyū-buntansha) |
原口 和也 京都大学, 情報学研究科, 准教授 (80453356)
細川 浩 京都大学, 情報学研究科, 講師 (90359779)
永持 仁 京都大学, 情報学研究科, 教授 (70202231)
|
Project Period (FY) |
2022-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥41,340,000 (Direct Cost: ¥31,800,000、Indirect Cost: ¥9,540,000)
Fiscal Year 2024: ¥11,310,000 (Direct Cost: ¥8,700,000、Indirect Cost: ¥2,610,000)
Fiscal Year 2023: ¥11,310,000 (Direct Cost: ¥8,700,000、Indirect Cost: ¥2,610,000)
Fiscal Year 2022: ¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
|
Keywords | 離散原像問題 / ニューラルネットワーク / 整数計画法 / ケモインフォマティクス / バイオインフォマティクス / 逆問題 / 深層学習 / 自己符号化器 / ReLU関数 |
Outline of Research at the Start |
与えられた性質を満たすデータを生成するという一種の逆問題が深層学習技術の進展などにより数多く研究されている。本研究では、この問題を写像と写像後のデータが与えられた場合に、元のデータ、すなはち、原像を推定する問題として定式化し、その理論的性質を解明するとともに、現実問題に適用可能な計算手法を開発する。データとしては化学構造データ、タンパク質配列データ、化合物もしくはタンパク質3次元構造データなどの離散構造データを主対象とし、それらに合わせた最適化も行うが、一般的な方法論を構築する。そし、離散原像問題についてのこれまでの研究を深化させ理論基盤を確立するとともに、開発手法を広く利用可能とする。
|
Outline of Annual Research Achievements |
(1) 本研究では化学構造に対する離散原像問題を解くために整数計画法とニューラルネットワークを組み合わせた方法論を開発してきたが、その方法論をさらに発展させた。具体的には昨年度行った繰り返し構造をもつポリマーの設計手法について研究を継続するとともに、二段階に分けて予測・設計を行う手法、および、ランダムフォレストと整数計画法を組み合わせて予測・設計を行う手法を開発した。 (2) これまで、線形閾値関数を活性化関数とする階層型ニューラルネットワークに基づく自己符号化器の圧縮率と頂点数、階層数の関係の理論解析を行ってきたが、今年度は、ReLU関数を用いた場合について予備的な解析を行った。 (3) 多くの薬剤はタンパク質と結合することにより機能を発揮するので、薬剤やタンパク質の設計のためには、タンパク質と低分子間の結合を予測することが重要である。その予測のために、原子間の距離に基づく新たな特徴量を定義し、それと勾配ブースティング木という機械学習手法を組み合わせた予測手法を開発し、計算機実験により、その有効性を示した。 (4) 配列データ設計のためには、配列の機能部位などを検出することが有用であると考えられる。今回は与えられたマイクロRNA配列から、切断部位を予測するための手法を開発した。この手法では、予測されたRNAの二次構造と自己符号化器による特徴抽出を畳み込みニューラルネットワークと組み合わせることにより予測を行う。そして、ベンチマークデータを用いた計算機実験により、その有効性を示した、 (5)乱数を入力とすることにより指定された文字列データ(配列データ)と類似のデータをすべて生成するためのReLU関数を活性化関数とする階層型ニューラルネットワークについて、必要な層数や頂点数について理論的に解析した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の予定とは異なる進展をしている部分もあるが、有用な研究成果が得られつつあり、順調に進展していると判断できる。特に、整数計画法を用いた化学構造設計法については、ポリマーなどの高分子への展開も進展し、かつ、二段階予測に基づく設計法やランダムフォレストと整数計画法の組み合わせによる予測・設計法が新規に開発されるなど、着実に進展しつつある。自己符号化器の圧縮能力の理論解析についても、線形閾値関数に基づく場合から、より広く利用されているReLU関数を活性化関数に基づく場合に解析が発展した。また、タンパク質、RNA配列データの解析についても新規手法を開発することができ、今年度も設計への応用に向けた着実な進展がみられた。
|
Strategy for Future Research Activity |
本研究では一種の逆問題を解くことにより新たなデータを設計するための理論や計算手法を開発することを主な目標としているが、近年の生成AIにおけるデータ生成技術の急速な進展により、直接、その性能を上回ることが困難になりつつある。よって、応用の観点からは、既存の生成AI技術では適用困難なデータや問題設定について研究を進めることが必要である。 一方、既存の生成AI技術によるデータ生成においては理論より応用が先行しており、生成可能なデータと頂点数の関係性などの基礎的問題はあまり研究されていないと思われる。今年度の研究により、その端緒となる成果を得ることができたので、今後、より発展させていく予定である。
|