苦味受容体は、オーファン受容体が多いことからも既知リガンド情報が少ない。しかし、AIモデルは一般的に学習する既知データの数量が多ければ多いほど精度の良いモデルを構築できる。このようなデータに乏しい状況において、AIとシミュレーションを組み合わせることで学習データを拡張しながらAIモデルを構築する取り組みは広く行われている。 我々は、データ拡張アプローチに基づく半教師付き学習フレームワークを提案した。まず、ChEMBLデータベースから得た学習データセットを用いて、化合物とタンパク質の相互作用を予測するAIモデルを構築する。このAIモデルは、化学構造とタンパク質配列の両方を入力として用いるマルチモーダルアーキテクチャである。次に、ブートストラップベースのアプローチを採用し、事前に相互作用情報を持たない化合物-タンパク質ペアの疑似ラベルを繰り返し生成し、モデルパラメータを改良していく。その結果、生成されたデータセットにおけるデータの不均衡が徐々に緩和され、さらに最終的に構築されたモデルは、既知の学習データセットのみを用いて構築された初期モデルを凌駕することが示された。 本データ拡張アプローチに基づく半教師付き学習フレームワークは、AIモデルを用いたシミュレーション結果をうまく利用することでAIモデルの精度と汎用性を向上させることができた。実験データが少ない対象に対して、このデータ拡張アプローチに基づく半教師付き学習フレームワークは適用が可能と考えている。
|