2004 Fiscal Year Annual Research Report
近似文字列照合アルゴリズムを用いたウェブマイニング手法の研究
Project/Area Number |
16700106
|
Research Institution | Kyushu University |
Principal Investigator |
中藤 哲也 九州大学, 情報基盤センター, 助手 (20253502)
|
Keywords | Web Mining / ウェブマイニング / Wrapper Generation / ラッパー生成 / Search Engine / 検索エンジン / Deep Web / FFT(fast Fourier transform) |
Research Abstract |
我々が提案している近似文字列照合問題を高速に解く確率アルゴリズム("An Efficient Mapping for Score of String Matching"[PSC'03])を実計算機上に実装し,理論通り働くことを確認した.加えて,このアルゴリズムを応用した繰り返しパターン発見アルゴリズムを実装した.これにより,"FFTを用いた繰り返しパターン発見手法の提案"[DBWS2003]で示したアルゴリズムを,より効率的に実行することが可能となった. 本アルゴリズムの応用として,WebデータベースのWebサービス化を取り上げた.本アルゴリズムを用いてWebデータベースの出力結果に対するラッパー生成を行なうと同時に,入力フィールドの解析やサービス連携のための仕組みの提案を行なった.ラッパー生成については,評価のために必要なテストベッドを準備し(Yamada et al.,"Testbed for Information Extraction from Deep Web"[WWW04,pp.346-347]),それを用いた客観的な評価を行なっている("Automatic Generation of Deep Web Wrappers based on Discovery of Repetition"[AIRS2004,pp269-272]).
|