研究概要 |
本研究課題の目的は,HTMLやXMLファイルなどのウェブデータから知識発見を行う分散型計算環境に適したデータマイニングシステムの実現と,そのシステムの理論的基礎となる木構造パターンの機械学習理論の構築である.この目的を達成するため,平成16年度は,ウェブデータの特性を生かした知識発見を行うことを目標に研究を行い,次の結果を得た. 半構造ウェブデータから意味がある知識を抽出するためには,まず,それらに頻出する木構造パターンを発見することが必要である.平成15年度までの研究で,我々は,柔軟性に富む木構造パターンとして項木(term tree)を提案し,帰納学習あるいは例からの概念学習とよばれる基礎的研究を行ってきた.項木は,いくつかの構造的変数と辺ラベルを持つ木構造からなるパターンであり,変数にはあらかじめ定められた条件を満たす非順序木または順序木を代入することができる.一方,ウェブデータを木構造データとみなすとき,多くの場合,その木の高さはその木の幅と比較し大きくならない.そこで,平成16年度では,木の高さの情報をウェブデータの特徴として抽出することのできる構造的変数(高さ制約変数とよぶ)を定義し,与えられたウェブデータの高さのパターンを抽出するために計算論的学習理論に基づく多項式時間学習アルゴリズムを提案した. 最後に,本年度までに構築した項木の機械学習理論の有効性を確認するため,提案した学習アルゴリズムをエンジンとするメタサーチシステムを開発した.このメタサーチシステムは,タグやキーワードの意味を考慮せず,木の構造だけからデータの重要箇所を切り出すためのアルゴリズム(ラッパーとよぶ)を自動で生成する機能を持つ.このメタサーチシステムによりインターネット上に分散した複数の検索サイトの統合が実現できることを確認した.以上が,本年度の研究成果の概要である.
|