1997 年度実績報告書

ゲノムデータベースからの網羅的データマイニングに関する研究

研究課題

研究課題/領域番号	09780314
研究機関	東京大学
研究代表者	佐藤賢二東京大学, 医科学研究所, 助手 (10215783)
キーワード	データマイニング / 相関ルール発見 / 演繹データベース / ゲノム解析 / タンパク質立体構造表示
研究概要	指数関数的に増大し続けるゲムノデータベースから自動的に有用な知識を発見することの重要性が近年指摘されている。これに対し筆者らはデータベース研究の分野で注目されているデータマイニング手法を用いた知識発見について研究を行なっている。しかし、大量かつ多種多様なゲムノデータベースから網羅的に知識発見を行なうためには、相関ルール自身の表現能力や処理効率などの点で解決しなければならない問題がある。また、知識発見のエンジンと各種のゲノム解析ソフトウェアをどのように相関ルール発見システムに統合していくかも大きな問題である。本研究ではまず、データベース研究の分野で注目されているデータマイニング手法のうち、Agrawalらが1993年に開発した相関ルール発見手法を用いて、各種ゲノムデータベースから網羅的にデータマイニングを行なう手法について検討を行なった。異種データを統合するための参照情報としてLinkDBを用い、タンパク質の配列/構造/機能相関について知識発見を行なった。その結果、前年度までの限られた範囲のデータを2倍に拡大することができ、カルシウム結合タンパクの機能部位などに関する新しい相関ルールを発見することが出来た。また、述語論理形式の相関ルール発見を行なうために、基本アルゴリズムを設計し、述語論理を基礎とする演繹データベースシステムPACADEと相関ルール発見エンジンの統合を試み、プロトタイプを作成した。現在はアルゴリズムの評価とプロトタイプの洗練を行なっている段階である。さらに、解析ソフトウェア統合の一環として、PACADEが持つタンパク質立体構造の類似検索機能にWWWインタフェースを追加し、類似検索や相関ルールの結果をネットワーク経由でビジュアルに閲覧・解析する機能を持たせた。

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] Kenji Satou 他5名: "WebPACADE : a System for the Analysis of Structural Similarity of Protein via WWW" Genome Informatics 1997. 338-339 (1997)
[文献書誌] Kenji Satou 他5名: "Substructures of Proteins Essential to their Biological Functions by a Data Mining Technique" Proc.of the 5th Int.Conf.on Intelligent Systems for Molecular Biology(ISMB'97). 254-257 (1997)