本研究の目的の一つは、多数のタンパク質立体構造から類似する部分構造を抽出することである。そのためにはまず、タンパク質立体構造を扱いやすいデータ構造で表現することが必要である。その上で類似する部分構造を探索する。平成21年度の研究では、頂点にラベルの付いたグラフに対して効率良く類似部分を探索するアルゴリズムを開発した。このアルゴリズムを検証するために、いくつかの主要な生物種の代謝ネットワーク間の類似度を計算した。代謝ネットワークには、各頂点に化合物がラベルとして付けられているので、純粋にネットワークの構造を比較するには適さない。そこで本研究では、化合物の構造情報に利用されるMorganインデックスをラベルに用いた。Morganインデックスは隣接するMorganインデックスの足し合せをある条件が満たされるまで繰り返す。同じネットワークでも繰り返し回数が異なるとラベルが違ってくるため、繰り返し回数は固定する。このようにして求めた代謝ネットワーク間の類似度に対して、最短距離法(nearest neighbor method)によるクラスタリングを行い、一般に知られているような系統樹と矛盾のない結果が得られた。しかしいくつかの課題も残される。一つは開発したアルゴリズムが高速ではあるが不可逆であることである。つまり、得られたグラフ文法からもとのグラフをいつも再構成できるとは限らない。類似構造を抽出する観点からは必ずしも可逆である必要はないが、同じ規則によって縮約される部分グラフはある類似度以内であることが保証された方がよい。逆に全く同一の部分グラフのみを縮約する規則のみを生成するようなアルゴリズムは効率が悪くなり、多数の立体構造を扱うことが困難になるため、できるだけ効率性を失わずにアルゴリズムを改良することが今後の課題となる。
|