研究概要 |
本研究課題では,構造化データから知識を発見するデータマイニングシステムについて研究を行い,次の成果を得た.本課題の目的は,グラフ構造や木構造を持つデータから知識を発見するデータマイニングシステムについて,その理論的基礎を確立し,知識発見システムを実現することである. インターネットの発展に伴い,Web文書も急速に増大している.本研究の目的の一つは,XMLファイルのような木構造を持つWeb文書から知識を発見することである.このようなWeb文書は,半構造データと呼ばれており,半構造データからのデータマイニングやテキストマイニングが注目を集めている.半構造Web文書から,意味がある知識を抽出するためには,まず,それらに頻出する木構造パターンを発見することが必要である.正事例とみなされる木構造データの構造的特徴を表すために,極大頻出タグ木パターンという木構造パターンを提案した.半構造データを非順序木とみなす場合と,順序木とみなす場合の両方について,極大頻出タグ木パターンをすべて生成するアルゴリズムを提案した.この発見アルゴリズムを実現し,その有効性を確認した. 半構造データのテキスト部分に出現する単語とその出現する構造に注目して,頻出する語間構造パターンを生成するアルゴリズムを提案し,実現した. 半構造データからのデータマイニングの理論的基礎を与えるため,非順序項木という木構造パターンが表現する言語の学習可能性を調べて,次の結果を得た.非順序項木の極小言語は多項式時間で求めることができる.また,非順序項木が作る言語は,正データから多項式時間帰納推論可能である.
|