研究概要 |
構造化ウェブデータ,特にHTML/XMLなどの半構造データは木構造データとみなすことができる.本研究では,ウェブデータを順序木データとして扱い,そのデータから有益な知識を抽出するための実時間動作可能なデータマイニングシステムの開発を目標とする.本年度は,この目標を達成するために,基本アルゴリズムの並列化と,表現力のある木構造パターンの設計とその学習理論の研究を行い,以下の結果を得た. (1)順序木構造パターン照合のための効率の良い並列アルゴリズムを与えた.順序木データから,データ固有のパターンを抽出するためには,パターンと順序木データの照合を何度も繰り返す必要がある.したがって,パターン照合アルゴリズムのスピードはシステム全体のスピードを左右する.そこで,我々は,並列アルゴリズムの理論に基づき,順序木構造パターンと順序木との照合を行う効率の良い並列アルゴリズムを与えた.このアルゴリズムは入力サイズの多項式個のプロセッサを用いて,対数多項式時間でパターン照合を行う. (2)表現力のある順序木構造パターンを提案し,そのパターンの多項式時間機械学習可能性を示した.我々がこれまでに提案した順序項木は構造的な内部変数をもつ順序木構造パターンである.変数には空でない任意の順序木を代入することができる.我々は既に順序項木言語のいくつかのクラスが多項式時間機械学習可能であることを示した.本年度は,ウェブデータ中の誤りや冗長な記述を吸収し,全体としてバランスのとれたパターン表現を得るために,縮約可能変数と呼ばれる空代入を許す変数を導入した.そして,縮約可能変数付き順序木言語のいくつかのクラスが多項式時間機械学習可能であることを示した(ILP03とALT03で発表). さらに,以上のアルゴリズムを実装したプロトタイプを作成し,実際のウェブデータに対してデータマイニングの実験を行い,実時間動作可能であることを確認した.
|