研究概要 |
本研究課題では,構造化データから知識を発見するデータマイニングシステムについて研究を行い次の成果を得た.本課題の目的は,グラフ構造や木構造を持っデータから知識を発見するデータマイニングシステムについて,その理論的基礎を確立し,知識発見システムを実現することである.本研究の目的の一つは,HTML/XMLファイルのような木構造を持つWeb文書から知識を発見することである.このようなWeb文書は,半構造データと呼ばれており,半構造Web文書から,意味がある知識を抽出するためには,まず,それらを特徴付ける木構造パターンを発見することが必要である. 順序項木は,辺ラベルを持つ順序木構造と構造的変数を持つ木構造パターンであり,変数には任意の木を代入することができる.よって,順序項木は,木構造データに共通する構造的パターンを表現するのに適している.順序項木言語の学習アルゴリズムを利用して,与えられた木構造データに共通な構造的パターンを抽出する手法を開発し,本研究課題の目標とするシステムの基本的データマイニング手法とすることができる.そのため,順序項木言語の学習可能性を調べた. タグ木パターンとは,辺ラベルを持つ順序木で,タグの木構造と構造的変数を持つ.辺ラベルはタグかキーワードかワイルドカードであり,変数には任意の木を代入することができる.特に,縮約可能変数は,1頂点だけから成る木を含む,任意の木とマッチする.よって,タグ木パターンは,不定形な半構造データに共通する構造的パターンを表現するのに適している.本研究課題の目標とするシステムの基本的データマイニング手法とするため,タグ木パターンの抽出法を調べた.与えられたデータを説明する極小に一般化されたタグ木パターンをみつけるアルゴリズムを用いて,不定形な半構造データから特徴的なタグ木パターンを抽出する方法が有効であることがわかった.
|