演繹データベースを実用化するためには、最初の検索で得た解と類似した解を、条件を変えて再検索する作業を支援する機能が必要である。例えば、タンパク質立体構造データの検索では、特定のタンパク質で見つかった構造(=解)と類似した構造(=類似解)を他のタンパク質に対して検索することが重要であるが、これを実行するためには現在は検索ルールを手で書き換える方法しかないので、非常に面倒である上に、書き換えたルールが正しく類似解を検索する保証がない。 本研究では、類似解の検索を支援するため、まず解の類似性を整理分類し、類似解を検索するために最低限必要なユーザの指定条件を明らかにした。その結果、(a)類似元の指定(b)類似性の指標(c)許容可能誤差範囲、という3種類の情報については、ユーザの指定が必要であることが分かった。この検討に基づいて、解の類似性に関するこれらの情報(以下プレフィクスと呼ぶ)をルール集合や質問に記述することを許す構文と、プレフィクス付きのルール集合と質問を通常のボトムアップ評価器で評価できるホーン節に書き換えるアルゴリズムとを開発し、研究代表者が所属する研究グループで開発しているタンパク質立体構造データ解析のための演繹データベースシステム上に実装した。 本手法を使い、タンパク質立体構造データに対して各種の検索実験を行なった結果、立体的に類似した構造を検索できることが分かった。また、構造上の類似性に基づいたタンパク質の分類にも本手法を応用できることが分かった。 さらに、開発した類似解検索アルゴリズムと演繹データベースの質問効率化手法として有名なマジックセット法とを併用しても同じ解集合が得られることを理論的に証明し質問処理の効率化を図った。 本研究の成果として得られた類似解検索手法は、タンパク質中立立体構造データの解析という具体的な応用に向けて開発されたものであるが、データの種類には一切依存していない。よって、全く変更なしに他分野のデータに適用することが可能な、汎用性の高い手法を確立することができたと言える。
|