1996 Fiscal Year Annual Research Report
ゲノムデータベースからの相関ルール発見に関する研究
Project/Area Number |
08780331
|
Research Institution | The University of Tokyo |
Principal Investigator |
佐藤 賢二 東京大学, 医科学研究所, 助手 (10215783)
|
Keywords | データマイニング / 相関ルール発見 / 演繹データベース / 分子生物学 / ゲノム解析 / タンパク質立体構造データ / 構造-機能相関 |
Research Abstract |
分子生物学の実験データを格納したゲノムデータベースは指数関数的に増大し続けてる。ゲノムデータの中で主要なものは、タンパク質と核酸とについての配列情報/立体構造情報/機能情報である。これら3種の情報は互いに関連しており、一般に配列が定まれば構造が定まり、構造が定まれば発現する機能が定まる、と言われている。しかし、これら配列/構造/機能間の対応がどのような法則に支配されているかは部分的にしかわかっていない。 本研究では、データベース研究の分野で注目されているデータマイニング手法のうち、Agrawalらが1993年に開発した相関ルール発見手法を、始めてゲノムデータベースからの知識発見に応用した。まず、Agrawalらの手法をHoutsmaらが改良したアルゴリズムSETMをワークステーション上で実装し、次に、PDB,SWISS-PROT,PROSITEといったタンパク質関連の公的データベースをもとにデータマイニング用の実験データを生成し、これを用いて知識発見の実験を行なった。その結果、セリンエンドペプチダーゼおよびアスパラギン酸エンドペプチダーゼという2種類の酵素群について、配列情報/立体構造情報/機能情報の間に強い相関関係があることを、相関ルールの形で発見した。 また、否定情報を扱えるよう相関ルール発見の枠組を拡張することを検討した。その結果、単純な手法で(つまり、ある命題が「成立しない」という否定的な命題をマイニング用のデータに追加する方法で)否定情報を含むルールを発見できることが分かった。しかし、この方法をそのまま用いるとあまり意味のないルールが大量に生成されるため、最大サポートによる枝刈りや、否定情報のみから成るルールを生成しないなどの処理が有効であることが分かった。 相関ルール発見の枠組を述語論理形式に拡張する研究については、基本アルゴリズムの開発を終えて現在ワークステーション上で実装中であるため、実際にゲノムデータに応用する所までには至らなかった。
|