タンパク質の構造データは分子進化や統御メカニズムの解明だけでなく、医農薬品開発の標的としても極めて重要である。本年度研究では、主として有機低分子を対象として、分子の構造特徴表現とそれに基づく類似性評価のための基本アルゴリズムの検討を行なった。 与えられた分子構造データから、原子間の結合情報(隣接関係)に注目したトポロジカル距離(DT)、および三次元座標情報に基づくジオメトリカル距離(DG)の2種類の距離行列を生成し、それに対応するエッジ重み付き完全グラフを考える。次に、(1)各ノードの近傍に位置するノード集合(近傍フラグメント)を列挙する。これは、注目する原子から、指定した距離の半径rの球内に位置する原子(団)を探索することに対応する。(2)近傍フラグメントに対し、特徴量W(例えばフラグメントの構成原子数)を計算する。(3)同じWを持つフラグメントを数え上げ、ヒストグラムを作る。本研究では、このヒストグラムを近傍フラグメントスペクトル(NFS)と定義した。ある分子構造から生成したNFSは、多次元ベクトル空間上の一つの点とみなすことができる。従って、ある二つの分子構造の類似度(相違度)は、それに対応する多次元ベクトル空間上での二点間の距離(例えばユークリッド距離)で定義することができる。この表現をもとに、クエリー(リファレンス)化合物とデータベース内の各化合物構造とのペアワイズ比較を行ない、類似度の値でソートして順位付けすることで構造類似性検索を実現した。結晶構造データベースから抽出したテストデータセットを例に検索実験を試みた結果、ユーザが指定する距離の種別や、そのしきい値に応じて、様々な視点からの構造類似性評価が可能であることが確認できた。
|