研究概要 |
本研究課題の目的は,HTMLやXMLファイルなどのウェブデータから知識発見を行う分散型計算環境に適したデータマイニングシステムの実現と,そのシステムの理論的基礎となる木構造パターンの機械学習理論の構築である. 近年,高速なネットワークと大容量記憶装置の発達を背景として,ウェブページに代表されるテキストデータの利用が急速に進みつつある.とくに,HTMLやXMLデータはテキストデータでありながら,タグを入れ子とする構造を持つので半構造データ,あるいは木構造データとよばれる.本研究課題では,木構造データからのデータマイニングの基礎理論を構築するため,木構造データを非順序木とみなす場合と,順序木とみなす場合の両方について,帰納学習あるいは例からの概念学習とよばれる基礎的研究を行った.また,提案した学習アルゴリズムを用いたデータマイニングシステムを開発した. 木構造データから意味がある知識を抽出するためには,それらに頻出する木構造パターンを発見することが必要である.そこで,まず柔軟性に富む木構造パターンとして項木を定義した.項木は,いくつかの構造的変数と辺ラベルを持つ木構造からなるパターンであり,変数にはあらかじめ定められた条件を満たす非順序木または順序木を代入することができる.我々は,変数の代入条件,項木の表現能力,およびデータ提示および質問に関する様々な設定のもとで,項木言語の多項式時間機械学習アルゴリズムを与えた.また,理論の有効性を確認するため,提案した学習アルゴリズムをエンジンとするメタサーチシステムを開発した.このメタサーチシステムは,タグやキーワードの意味を全く考えず,木の構造だけから自動でラッパーを生成する機能を持つ.このメタサーチシステムにより複数の検索サイトの統合が実現できることを確認した.以上が,本研究課題で得た研究成果の概略である.
|