研究課題/領域番号 |
22H00532
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 京都大学 |
研究代表者 |
阿久津 達也 京都大学, 化学研究所, 教授 (90261859)
|
研究分担者 |
原口 和也 京都大学, 情報学研究科, 准教授 (80453356)
細川 浩 京都大学, 情報学研究科, 講師 (90359779)
永持 仁 京都大学, 情報学研究科, 教授 (70202231)
|
研究期間 (年度) |
2022-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
41,340千円 (直接経費: 31,800千円、間接経費: 9,540千円)
2024年度: 11,310千円 (直接経費: 8,700千円、間接経費: 2,610千円)
2023年度: 11,310千円 (直接経費: 8,700千円、間接経費: 2,610千円)
2022年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
|
キーワード | 離散原像問題 / ニューラルネットワーク / 整数計画法 / ケモインフォマティクス / バイオインフォマティクス / 逆問題 / 深層学習 / 自己符号化器 |
研究開始時の研究の概要 |
与えられた性質を満たすデータを生成するという一種の逆問題が深層学習技術の進展などにより数多く研究されている。本研究では、この問題を写像と写像後のデータが与えられた場合に、元のデータ、すなはち、原像を推定する問題として定式化し、その理論的性質を解明するとともに、現実問題に適用可能な計算手法を開発する。データとしては化学構造データ、タンパク質配列データ、化合物もしくはタンパク質3次元構造データなどの離散構造データを主対象とし、それらに合わせた最適化も行うが、一般的な方法論を構築する。そし、離散原像問題についてのこれまでの研究を深化させ理論基盤を確立するとともに、開発手法を広く利用可能とする。
|
研究実績の概要 |
(1) これまで化学構造に対する離散原像問題を解くため、整数計画法とニューラルネットワークを組み合わせた方法論を開発してきたが、その方法論をさらに発展させた。その一つは特徴量をそのまま用いるだけでなく特徴量の対を用いるという方法論であり、それを整数計画問題として定式化するために新たな工夫を行った。また、繰り返し構造をもつポリマーの設計のため、線形回帰と整数計画法を組み合わせた設計手法も開発した。いずれについても計算機実験によりその有効性を示した。 (2) 以前より線形閾値関数を活性化関数とする階層型ニューラルネットワークに基づく自己符号化器の圧縮率と頂点数、階層数の関係の理論解析を行ってきたが、今年度は、これまに得た頂点数に関する上限を改良するとともに、新たに下限を導出した。さらに、誤差を許して復号化するという問題設定について検討を行い、この場合、少しではあるがさらに上限を改良できることを示した。 (3) タンパク質の設計のためには、タンパク質間の結合において重要な役割を果たすhot spotという領域を推定することが有用と考えられる。そこで、結合しているタンパク質対の立体構造から、それをグラフ構造に変換し、そのグラフ中で密度の高い領域を検出することにより hot spot を推定するという手法を、線形計画法や整数計画法を用いて開発した。そして、計算機実験による既存手法などとの比較により、その有効性を示した。 (4) 配列データ設計のためには、配列の機能部位を検出することが有用であると考えられる。今回は与えられたDNA配列から、ある種のメチル化部位を推定するための手法を畳み込みニューラルネットワークに基づき開発した。そのために比較的単純であるが新規なネットワーク構造を設計し、計算機実験により既存手法より優れた予測率を持つことを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の予定とは異なる進展をしている部分もあるが、有用な研究成果が得られつつあり、順調に進展していると判断できる。特に、整数計画法を用いた化学構造設計法については、特徴量の対を用いることにより予測精度向上が図られ、また、ポリマーなどの高分子への展開も図られるなど、着実に進展しつつある。自己符号化器の圧縮能力の理論解析についても、これまでの研究成果の改良がなされるなど、有用な進展を得た。実際のデータ解析についても、結合タンパク質からのhot spot部位のグラフ理論に基づく推定手法の開発、深層学習に基づくDNA配列のメチル化部位の新規予測手法の開発など、設計への応用に向けた着実な進展がみられた。
|
今後の研究の推進方策 |
本研究では離散原像問題という一種の逆問題を解くことにより新たなデータを設計するための理論や計算手法を開発することを主な目標としているが、近年の人工知能研究におけるデータ生成技術の急速な進展により、直接、その性能を上回ることが困難になりつつある。よって、応用の観点からは、既存の人工知能技術では適用困難なデータや問題設定について研究を進めることが必要である、 一方、人工知能技術によるデータ生成においては理論より応用が先行しており、「どのようなネットワーク構造であればどのようなデータが生成可能か?」という問題はあまり研究されていないと思われる。そのようなことは本研究がもともと目標としていたことの一つであるので、応用にとらわれずに着実に研究を進めていく予定である。
|