近似文字列照合アルゴリズムを用いたウェブマイニング手法の研究

Research Project

Project/Area Number	16700106
Research Category	Grant-in-Aid for Young Scientists (B)
Allocation Type	Single-year Grants
Research Field	Media informatics/Database
Research Institution	Kyushu University
Principal Investigator	中藤哲也九州大学, 情報基盤センター, 助手 (20253502)
Project Period (FY)	2004 – 2005
Project Status	Completed (Fiscal Year 2005)
Budget Amount *help	¥3,600,000 (Direct Cost: ¥3,600,000) Fiscal Year 2005: ¥1,400,000 (Direct Cost: ¥1,400,000) Fiscal Year 2004: ¥2,200,000 (Direct Cost: ¥2,200,000)
Keywords	Web Mining / ウェブマイニング / Wrapper Generation / ラッパー生成 / Search Engine / 検索エンジン / Deep Web / FFT (fast Fourier transform) / FFT(fast Fourier transform)
Research Abstract	我々が提案している近似文字列照合問題を高速に解く確率アルゴリズム("An Efficient Mapping for Score of String Matching"[PSC'03])を実計算機上に実装し,理論通り働くことを確認すると共に,理論的な性能に関して詳細に示した([Journal of Automata]). この実装を用いる事で,提案済みの繰り返しパターン発見手法[DBWS2003]がより効率的に実行可能となった. 繰り返しパターン発見手法の応用として,WebデータベースのWebサービス化を取り上げた.本アルゴリズムを用いてWebデータベースの出力結果に対するラッパー生成を行なうと同時に,入力フィールドの解析やサービス連携のための仕組みの提案を行なった.ラッパー生成については,評価のために必要なテストベッドを準備し("Testbed for Information Extraction from Deep Web"[WWW04]),それを用いた客観的な評価を行なっている("Automatic Generation of Deep Web Wrappers based on Discovery of Repetition"[AIRS2004]). 更に,ラッパー生成に関する大規模な実験を行なうための準備として,学術情報に関する検索可能なWebデータベースの収集を行なった.収集したWebデータベースの一部は<http://kushida.cc.kyushu-u.ac.jp/~nakatoh/DBsOnTheWeb/>にて公開している.応用として,本研究の手法を一部利用し,日本の情報処理系学会の論文検索を,横断的,再帰的に行なうことが可能な統合検索システムを作成し,公開した<http://matu.cc.kyushu-u.ac.jp/guruguru/>.本システムは従来型の統合検索システムと異なり,提案ラッパーで切り出された複数の項目を再構成し,更に再検索のためのリンクが埋め込まれた出力を持つ点に特徴を持つ.

Report

(2 results)

2005 Annual Research Report
2004 Annual Research Report

Research Products
(8 results)

All 2006 2005 2004

All Journal Article (8 results)

[Journal Article] AN EFFICIENT MAPPING FOR SCORE OF STRING MATCHING2006
- Author(s)
  Tetsuya Nakatoh
- Journal Title
  
  Journal of Automata, Languages and Combinatorics (印刷中)
- Related Report
  2005 Annual Research Report
[Journal Article] INTEGRATED SEARCH TO TAXONOMIC DATABASES2005
- Author(s)
  Tetsuya Nakatoh
- Journal Title
  
  TDWG 2005
  
  Pages: 54-54
- Related Report
  2005 Annual Research Report
[Journal Article] Testbed for Information Extraction from Deep Web.2004
- Author(s)
  Yasuhiro Yamada
- Journal Title
  
  Proc.of the 13th International World Wide Web Conference
  
  Pages: 346-347
- Related Report
  2004 Annual Research Report
[Journal Article] 検索サイトにおける入力項目と検索結果のフィールド名の対応調査2004
- Author(s)
  大森敬介
- Journal Title
  
  第3回情報科学技術フォーラム(FIT2004)
  
  Pages: 89-90
- Related Report
  2004 Annual Research Report
[Journal Article] Automatic Generation of Deep Web Wrappers based on Discovery of Repetition.2004
- Author(s)
  Tetsuya Nakatoh
- Journal Title
  
  Proc.of the First Asia Information Retrieval Symposium
  
  Pages: 269-272
- Related Report
  2004 Annual Research Report
[Journal Article] 検索エンジンを部品とするエージェントの構成について2004
- Author(s)
  中藤哲也
- Journal Title
  
  Proc.of JAWS2004 (Joint Agent Workshops & Symposium)
  
  Pages: 441-445
- NAID
  120006654535
- Related Report
  2004 Annual Research Report
[Journal Article] A Report on Metadata for Web Databases.2004
- Author(s)
  Tetsuya Nakatoh
- Journal Title
  
  情報処理学会研究報告(IPSJ SIG Technical Reports) ICS-138
  
  Pages: 95-98
- Related Report
  2004 Annual Research Report
[Journal Article] 複雑な検索サイトにおける入力フォーム情報の自動抽出2004
- Author(s)
  大森敬介
- Journal Title
  
  Data Engineering WorkShop (DEWS2005)
- Related Report
  2004 Annual Research Report

近似文字列照合アルゴリズムを用いたウェブマイニング手法の研究

Principal Investigator

中藤 哲也 九州大学, 情報基盤センター, 助手 (20253502)

¥3,600,000 (Direct Cost: ¥3,600,000)

Report

Research Products

[Journal Article] AN EFFICIENT MAPPING FOR SCORE OF STRING MATCHING2006

Author(s)

Journal Title

Related Report

[Journal Article] INTEGRATED SEARCH TO TAXONOMIC DATABASES2005

Author(s)

Journal Title

Related Report

[Journal Article] Testbed for Information Extraction from Deep Web.2004

Author(s)

Journal Title

Related Report

[Journal Article] 検索サイトにおける入力項目と検索結果のフィールド名の対応調査2004

Author(s)

Journal Title

Related Report

[Journal Article] Automatic Generation of Deep Web Wrappers based on Discovery of Repetition.2004

Author(s)

Journal Title

Related Report

[Journal Article] 検索エンジンを部品とするエージェントの構成について2004

Author(s)

Journal Title

NAID

Related Report

[Journal Article] A Report on Metadata for Web Databases.2004

Author(s)

Journal Title

Related Report

[Journal Article] 複雑な検索サイトにおける入力フォーム情報の自動抽出2004

Author(s)

Journal Title

Related Report

中藤哲也九州大学, 情報基盤センター, 助手 (20253502)