研究概要 |
本研究課題の目的は,グラフ構造や木構造を持つデータから知識を発見するデータマイニングシステムについて,その理論的基礎を確立し,知識発見システムを実現することである.インターネットの発展に伴い,Web文書も急速に増大している,本研究の目的の一つは,HTML/XMLファイルのような木構造を持つWeb文書から知識を発見することである.このようなWeb文書は,半構造データと呼ばれており,半構造データからのデータマイニングやテキストマイニングが注目を集めている.半構造Web文書から,意味がある知識を抽出するためには,まず,それらに頻出する木構造パターンを発見することが必要である.正事例とみなされる木構造データの構造的特徴を表すために,極大頻出タグ木パターンという木構造パターンを提案した.半構造データを非順序木とみなす場合と,順序木とみなす場合の両方について,極大頻出タグ木パターンをすべて生成するアルゴリズムを提案した.この発見アルゴリズムを実現し,その有効性を確認した.半構造データからのデータマイニングの理論的基礎を与えるため,項木という木構造パターンが表現する言語の学習可能性を調べた.項木言語の学習アルゴリズムを利用して,与えられた木構造データに共通な構造的パターンを抽出する手法を開発し,本研究課題の目標とするシステムの基本的データマイニング手法とすることができる.そのため,木構造データを,非順序木とみなす場合と,順序木とみなす場合の両方について,項木の表現能力,データ提示および質問に関する様々な設定のもとで,項木言語の学習アルゴリズムを与えた.
|