2010 Fiscal Year Annual Research Report
近傍フラグメントスペクトル表現に基づくタンパク質構造データマイニングに関する研究
Project/Area Number |
22500130
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
加藤 博明 豊橋技術科学大学, 大学院・工学研究科, 講師 (30303704)
|
Keywords | 分子構造情報処理 / 三次元構造類似性 / データマイニング / 分子生命情報学 / タンパク質立体構造 / 分子グラフ / 構造活性相関 / 近傍フラグメントスペクトル |
Research Abstract |
タンパク質の構造データは分子進化や統御メカニズムの解明だけでなく、医農薬品開発の標的としても極めて重要である。本年度研究では、主として有機低分子を対象として、分子の構造特徴表現とそれに基づく類似性評価のための基本アルゴリズムの検討を行なった。 与えられた分子構造データから、原子間の結合情報(隣接関係)に注目したトポロジカル距離(DT)、および三次元座標情報に基づくジオメトリカル距離(DG)の2種類の距離行列を生成し、それに対応するエッジ重み付き完全グラフを考える。次に、(1)各ノードの近傍に位置するノード集合(近傍フラグメント)を列挙する。これは、注目する原子から、指定した距離の半径rの球内に位置する原子(団)を探索することに対応する。(2)近傍フラグメントに対し、特徴量W(例えばフラグメントの構成原子数)を計算する。(3)同じWを持つフラグメントを数え上げ、ヒストグラムを作る。本研究では、このヒストグラムを近傍フラグメントスペクトル(NFS)と定義した。ある分子構造から生成したNFSは、多次元ベクトル空間上の一つの点とみなすことができる。従って、ある二つの分子構造の類似度(相違度)は、それに対応する多次元ベクトル空間上での二点間の距離(例えばユークリッド距離)で定義することができる。この表現をもとに、クエリー(リファレンス)化合物とデータベース内の各化合物構造とのペアワイズ比較を行ない、類似度の値でソートして順位付けすることで構造類似性検索を実現した。結晶構造データベースから抽出したテストデータセットを例に検索実験を試みた結果、ユーザが指定する距離の種別や、そのしきい値に応じて、様々な視点からの構造類似性評価が可能であることが確認できた。
|