1998 年度実績報告書

ゲノムデータベースからの網羅的データマイニングに関する研究

研究課題

研究課題/領域番号	09780314
研究機関	北陸先端科学技術大学院大学
研究代表者	佐藤賢二北陸先端科学技術大学院大学, 知識科学研究科, 助教授 (10215783)
キーワード	データマイニング / 相関ルール発見 / 演繹データベース / 分子生物学 / ゲノム解析 / タンパク質立体構造表示
研究概要	指数関数的に増大し続けるゲノムデータベースから自動的に有用な知識を発見することの重要性が近年指摘されている。これに対し筆者らはデータベース研究の分野で注目されているデータマイニング手法を用いた知識発見について研究を行なっている。しかし、大量かつ多種多様なゲノムデータベースか網羅的に知識発見を行なうためには、知識発見のエンジンと各種のデノム解析ソフトウェアをどのように相関ルール発見システムに統合していくかが大きな問題である。本年度は、前年度に開発したプロトタイプの改良を行なった。まず、可視化モジュール(PDB high-light)を改良することにより、類似構造検索モジュール(PACADE)およびデータマイニングモジュールからの呼出機構を強化し、さらに外部のゲノム解析プログラム(例えばFASTAなどのホモロジー検索)からも容易に呼び出せるような汎用的なパラメータ受渡しを行なうモジュールとしてPDB hige-lightを再実装した。また、可視化結果をもとに外部の解析/検索システムを容易に呼び出せる機能を付加した。これにより、ゲノムネット(http://www.genome.ad.jp/)が保有する各種ゲノムデータベースとの連係が容易になり、日々更新されるデータに対して検索/可視可/マイニングの3つを有機的に結びつけたサービスを構築できた。現在この統合サービス(WebPACADE)は、ゲノムネット上でWWWを通して公開され、利用されている。 WebPACADEのデータマイニングモジュールは主に蛋白質関連の知識発見を行なうが、このモジュールを元に、ゲノムネット上の20種におよぶ各種ゲノムデータを組み合せて網羅的に知識発見を行なうモジュールを開発した。一般にこのような大規模異種データベースからの相関ルール発見は計算量爆発に陥り実行不可能であるが、探索空間となるデータベースを限定し、さらに相関ルール発見の核となる微小なデータ集合を、利用者の興味に応じて指定させることで回避できることが示された。

研究成果

(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] 古市恵美子他3名: "WebPACADEの類似構造検索機能を用いたタンパク質のクラスタリング" 第21回日本分子生物学会年会. 348-348 (1998)
[文献書誌] 中西由紀子他4名: "データマイニングを利用したタンパク質の機能・構造間相関ルール抽出" 第21回日本分子生物学会年会. 348-348 (1998)