現在開発中の二次構造の変形操作による蛋白質の分類方式に関し、以下の2つの研究を実施した。 1 開発中の分類方式では、二次構造要素の拡大・移動・回転・削除といった各種変形操作に対して、重みパラメータが導入されており、蛋白質間の変形コストはそれらのパラメータ値に依存して決定される。ここでは、既知の分類結果を教師データとすることにより、計算機を用いてパラメータを自動調整する方式について検討した。既知の分類のもとで、おなじクラスタに属する蛋白質間の変形コストは異なるクラスタに属する蛋白質間の変形コストより小さくなる必要があることに着目し、クラスタ融合の際の違反の度合を評価関数として導入し、これを最小化することで、最適なパラメータ値を探索する方式を考案した。得られた最適パラメータ値によって、高い分類精度が得られることをSCOPの分類データと比較することで確認した。 2 未分類の蛋白質が既存の分類クラスタのどれに属しているかを決定するルールを作成するため、同一カテゴリ内の蛋白質の構造的特徴を自動抽出する方式について検討した。分類クラスタから特徴を抽出する際、多少の構造的相違を許容する特徴の定義が必要となる。そこで、構造変形操作の考え方をもとに、変形コスト空間上でのクラスタの代表点(特徴構造)とクラスタの広がり(特徴領域)の対として特徴を定義する方式を考案した。各種foldを含む蛋白質群に対して特徴抽出し、得られた特徴を用いて未分類と仮定した蛋白質の分類実験を実施することで、その有効性を確認した。
|