本課題では、離散構造を学習する並列知識発見システムの開発の研究を行い、平成9年度は次の2つの結果を得た。1、機能や構造が未知であるデータに対して、それらの機能や構造を説明するルールを発見する方式を、項グラフ言語の学習として定式化した。項グラフとは文字列におけるパターンを超グラフへ拡張したものであり、定数文字でラベル付けされた辺と変数文字でラベル付けされた超辺を持つ。項グラフは、その変数文字をラベルとして持つ超辺に任意のグラフを代入することにより、項グラフ言語を定義する。一方、たんぱく質やDNAの構造をグラフとして表現し、分子生物学的問題をグラフの問題として解いて成功した例もあるが、グラフとしての表現方法は確立しない。キャタピラとは、ある直線的な構造を持ったグラフの部分クラスでありたんぱく質やDNAのトポロジカルな構造をほぼ自明に抽出したものである。本課題では、データがグラフとして与えられたとき、その共通構造を項キャタピラとして出力する多項式時間アルゴリズムを与えた。さらに、項グラフ言語の部分クラスである項キャタピラ木言語のある部分言語が多項式時間帰納推論可能である事を示した。2、自然科学的データベースから知識を得るために2分決定グラフを用いた新しいデータマイニングの枠組みを構築した。大規模なデータから知識を発見するためには、その知識表現の確立とともに高速な探索アルゴリズムの開発が必要である。一般にデータマイニングと総称される知識探索技法は、商業分野で大きな成功を納めている。しかし、従来のデータマイニングの枠組みでは、より複雑な構造を持つ自然科学のデータベースからうまく知識を得ることが難しい。そこで、我々は2分決定グラフを用い、表現可能な知識発見システムのプロトタイプを作成し、大腸菌のDNAを対象として計算機実験を行った。
|