指数関数的に増大し続けるゲノムデータベースから自動的に有用な知識を発見することの重要性が近年指摘されている。これに対し筆者らはデータベース研究の分野で注目されているデータマイニング手法を用いた知識発見について研究を行なっている。しかし、大量かつ多種多様なゲノムデータベースか網羅的に知識発見を行なうためには、知識発見のエンジンと各種のデノム解析ソフトウェアをどのように相関ルール発見システムに統合していくかが大きな問題である。 本年度は、前年度に開発したプロトタイプの改良を行なった。まず、可視化モジュール(PDB high-light)を改良することにより、類似構造検索モジュール(PACADE)およびデータマイニングモジュールからの呼出機構を強化し、さらに外部のゲノム解析プログラム(例えばFASTAなどのホモロジー検索)からも容易に呼び出せるような汎用的なパラメータ受渡しを行なうモジュールとしてPDB hige-lightを再実装した。また、可視化結果をもとに外部の解析/検索システムを容易に呼び出せる機能を付加した。これにより、ゲノムネット(http://www.genome.ad.jp/)が保有する各種ゲノムデータベースとの連係が容易になり、日々更新されるデータに対して検索/可視可/マイニングの3つを有機的に結びつけたサービスを構築できた。現在この統合サービス(WebPACADE)は、ゲノムネット上でWWWを通して公開され、利用されている。 WebPACADEのデータマイニングモジュールは主に蛋白質関連の知識発見を行なうが、このモジュールを元に、ゲノムネット上の20種におよぶ各種ゲノムデータを組み合せて網羅的に知識発見を行なうモジュールを開発した。一般にこのような大規模異種データベースからの相関ルール発見は計算量爆発に陥り実行不可能であるが、探索空間となるデータベースを限定し、さらに相関ルール発見の核となる微小なデータ集合を、利用者の興味に応じて指定させることで回避できることが示された。
|