ゲノムデータベースからの相関ルール発見に関する研究

研究課題

研究課題/領域番号	08780331
研究種目	奨励研究(A)
配分区分	補助金
研究分野	知能情報学
研究機関	東京大学
研究代表者	佐藤賢二東京大学, 医科学研究所, 助手 (10215783)
研究期間 (年度)	1996
研究課題ステータス	完了 (1996年度)
配分額 *注記	1,000千円 (直接経費: 1,000千円) 1996年度: 1,000千円 (直接経費: 1,000千円)
キーワード	データマイニング / 相関ルール発見 / 演繹データベース / 分子生物学 / ゲノム解析 / タンパク質立体構造データ / 構造-機能相関
研究概要	分子生物学の実験データを格納したゲノムデータベースは指数関数的に増大し続けてる。ゲノムデータの中で主要なものは、タンパク質と核酸とについての配列情報/立体構造情報/機能情報である。これら3種の情報は互いに関連しており、一般に配列が定まれば構造が定まり、構造が定まれば発現する機能が定まる、と言われている。しかし、これら配列/構造/機能間の対応がどのような法則に支配されているかは部分的にしかわかっていない。本研究では、データベース研究の分野で注目されているデータマイニング手法のうち、Agrawalらが1993年に開発した相関ルール発見手法を、始めてゲノムデータベースからの知識発見に応用した。まず、Agrawalらの手法をHoutsmaらが改良したアルゴリズムSETMをワークステーション上で実装し、次に、PDB,SWISS-PROT,PROSITEといったタンパク質関連の公的データベースをもとにデータマイニング用の実験データを生成し、これを用いて知識発見の実験を行なった。その結果、セリンエンドペプチダーゼおよびアスパラギン酸エンドペプチダーゼという2種類の酵素群について、配列情報/立体構造情報/機能情報の間に強い相関関係があることを、相関ルールの形で発見した。また、否定情報を扱えるよう相関ルール発見の枠組を拡張することを検討した。その結果、単純な手法で(つまり、ある命題が「成立しない」という否定的な命題をマイニング用のデータに追加する方法で)否定情報を含むルールを発見できることが分かった。しかし、この方法をそのまま用いるとあまり意味のないルールが大量に生成されるため、最大サポートによる枝刈りや、否定情報のみから成るルールを生成しないなどの処理が有効であることが分かった。相関ルール発見の枠組を述語論理形式に拡張する研究については、基本アルゴリズムの開発を終えて現在ワークステーション上で実装中であるため、実際にゲノムデータに応用する所までには至らなかった。

報告書

(1件)

1996 実績報告書

研究成果
(1件)

すべてその他

すべて文献書誌 (1件)

[文献書誌] Kenji Satou 他6名: "Finding Association Rules on Heterogeneous Genome Data" Proceeding of Pacific Symposium on Biocomputing '97 (PSB'97). 397-408 (1997)
- 関連する報告書
  1996 実績報告書