研究概要 |
本研究課題では,構造化データから知識を発見するデータマイニングシステムについて研究を行い次の成果を得た.本課題の目的は,グラフ構造や木構造を持つデータから知識を発見するデータマイニングシステムについて,その理論的基礎を確立し,知識発見システムを実現することである.本研究の目的の一つは,HTML/XMLファィルのような木構造を持つWeb文書または半構造データから知識を発見することである. 順序項木は,辺ラベルを持つ順序木構造と構造的変数を持つ木構造パターンであり,変数には任意の木を代入することができる.順序項木言語の学習アルゴリズムを利用して,与えられた木構造データに共通な構造的パターンを抽出する手法を開発し,本研究課題の目標とするシステムの基本的データマイニング手法とすることができる.そのため,仮説,データ提示および質問に関する様々な設定のもとで,順序項木言語の学習アルゴリズムを与えた. 半構造データから意味がある,興味深い知識を発見するためには,半構造データに特徴的なパターンを抽出することが必要である.タグ木パターンは,辺ラベルとタグの木構造と構造的変数を持つ木構造パターンである.辺ラベルはタグがキーワードかワイルドカードであり,変数は任意の木とマッチすることができる.特に,縮約可能変数は,1頂点だけから成る木を含む,任意の木とマッチする.1頂点だけから成る木は,半構造データにおける欠落フィールドに対応する。半構造データは木構造データとみなせるので,タグ木パターンは,不定形な半構造データに特徴的な構造的パターンを表現するのに適している.極大頻出な縮約可能変数つきタグ木パターンを,与えられた半構造データを説明する特徴的なパターンであるととらえて,子に順序がある場合と無い場合の両方において,このパターンをすべて生成するアルゴリズムを与えた.
|