指数関数的に増大し続けるゲムノデータベースから自動的に有用な知識を発見することの重要性が近年指摘されている。これに対し筆者らはデータベース研究の分野で注目されているデータマイニング手法を用いた知識発見について研究を行なっている。しかし、大量かつ多種多様なゲムノデータベースから網羅的に知識発見を行なうためには、相関ルール自身の表現能力や処理効率などの点で解決しなければならない問題がある。また、知識発見のエンジンと各種のゲノム解析ソフトウェアをどのように相関ルール発見システムに統合していくかも大きな問題である。 本研究ではまず、データベース研究の分野で注目されているデータマイニング手法のうち、Agrawalらが1993年に開発した相関ルール発見手法を用いて、各種ゲノムデータベースから網羅的にデータマイニングを行なう手法について検討を行なった。異種データを統合するための参照情報としてLinkDBを用い、タンパク質の配列/構造/機能相関について知識発見を行なった。その結果、前年度までの限られた範囲のデータを2倍に拡大することができ、カルシウム結合タンパクの機能部位などに関する新しい相関ルールを発見することが出来た。 また、述語論理形式の相関ルール発見を行なうために、基本アルゴリズムを設計し、述語論理を基礎とする演繹データベースシステムPACADEと相関ルール発見エンジンの統合を試み、プロトタイプを作成した。現在はアルゴリズムの評価とプロトタイプの洗練を行なっている段階である。さらに、解析ソフトウェア統合の一環として、PACADEが持つタンパク質立体構造の類似検索機能にWWWインタフェースを追加し、類似検索や相関ルールの結果をネットワーク経由でビジュアルに閲覧・解析する機能を持たせた。
|