研究概要 |
本課題では,離散構造の法則を発見する並列機械学習システムの開発に関する研究を行ない,平成11年度は次の2つの結果を得た. 1.グラフ構造,特に木構造は,様々なデータを表現する手段として,重要な役割を果たしており,グラフ構造データ,木構造データからの知識発見が注目されている.項木(term tree)とは,木構造をしたデータのパターンを表現するための,変数を含むデータ構造である.一階項(first order term)より表現力が大きい.我々は,木構造データからの知識発見の効率化のため,正則項木と木の単一化可能性を効率的に判定するアルゴリズムを提案した.正則項木と木が単一化可能であるとは,正則項木が表すパターンに木が適合することである.我々が提案したアルゴリズムは,与えられた項木の変数次元を定数とみなし,さらに与えられた木の次数も定数とみなすことができる場合,その単一化可能性を多項式時間で計算する.また,我々は,与えられた項木の変数次元が4以上の場合の単一化可能性問題はNP完全となることを示した. 2.正データから多項式時間推論可能である正則項木言語の新たなサブクラスを示した.これは,我々の以前の結果(ALT'97)を拡張したものである.この正則項木言語のクラスはキャタピラと呼ばれる木の特殊な形をベースとする正則項木から導かれる.キャタピラとは,ある直線的な構造を持った木の部分クラスであり,タンパク質やDNAのトポロジカルな構造をほぼ自明に抽出したものである.また,我々は,正則項木言語が完全データから論駁推論可能であることを示した. これら2つの理論的結果に基づいて,木構造データを対象とした機械学習システムを構築し,その有効性を確認した.我々が提案したアルゴリズムを用いることにより,現実的な時間で仮説発見を行うことができる.
|