研究概要 |
本課題では,離散構造を学習する並列知識発見システムの開発の研究を行ない,平成10年度は次の2つの結果を得た. 1. 大規模なデータベースから知識発見を行うときには,データベースの探索手法の開発とともに,データの見方であるビューの確立が必要である.本課題では,最初に,ビューの数学的定式化を行なった.それに基づいて,多種多様な構造を持つデタに対応できる複数の異なるビューを持った知識発見システムのプロトタイプを作成し,分子生物学的データベースを対象として並列計算機上で実験を行なった.従来のデータマイニングの枠組みでは,より複雑な構造を持つ自然科学のデータベースからうまく知識を得ることが難しい.そこで,我々は,ユーザがビューを自由に設計でき,また必要ならばユーザがプラグインとして新たなビューを追加できる新しい知識発見システムの開発を行った, 2. 本年度は,機能や構造が未知であるデータに対する知識発見方式の定式化に基づいて,項木言語の学習可能性について,昨年度に証明した結果の拡張を行った.これにより,タンパク質やRNAといったような離散構造を持つデータから自明でない特徴を見出すためのビューの確立を目指した.項木とは,変数を持つ辺にラベルを付した木である.これは,文字列パターンと同様に,その変数に任意の木を代入することで,ある複数の部分木を持つすべてのラベル付き木を表現することができる.キャタピラは,タンパク質やRNAのトポロジカルな構造を直感的に表現した木の部分クラスである.本年度は,キャタピラをベースとする項木をビューとして確立するために,昨年度の結果より広いクラスについて,キャタピラの項木言語の機械学習可能性を証明した,また,このビューを用いた知識発見システムを構築するにあたって,そのコアとなる多項式時間探索アルゴリズムのいっそうの効率化を行った.
|