• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

近似文字列照合アルゴリズムを用いたウェブマイニング手法の研究

研究課題

研究課題/領域番号 16700106
研究種目

若手研究(B)

配分区分補助金
研究分野 メディア情報学・データベース
研究機関九州大学

研究代表者

中藤 哲也  九州大学, 情報基盤センター, 助手 (20253502)

研究期間 (年度) 2004 – 2005
研究課題ステータス 完了 (2005年度)
配分額 *注記
3,600千円 (直接経費: 3,600千円)
2005年度: 1,400千円 (直接経費: 1,400千円)
2004年度: 2,200千円 (直接経費: 2,200千円)
キーワードWeb Mining / ウェブマイニング / Wrapper Generation / ラッパー生成 / Search Engine / 検索エンジン / Deep Web / FFT (fast Fourier transform) / FFT(fast Fourier transform)
研究概要

我々が提案している近似文字列照合問題を高速に解く確率アルゴリズム("An Efficient Mapping for Score of String Matching"[PSC'03])を実計算機上に実装し,理論通り働くことを確認すると共に,理論的な性能に関して詳細に示した([Journal of Automata]).
この実装を用いる事で,提案済みの繰り返しパターン発見手法[DBWS2003]がより効率的に実行可能となった.
繰り返しパターン発見手法の応用として,WebデータベースのWebサービス化を取り上げた.本アルゴリズムを用いてWebデータベースの出力結果に対するラッパー生成を行なうと同時に,入力フィールドの解析やサービス連携のための仕組みの提案を行なった.ラッパー生成については,評価のために必要なテストベッドを準備し("Testbed for Information Extraction from Deep Web"[WWW04]),それを用いた客観的な評価を行なっている("Automatic Generation of Deep Web Wrappers based on Discovery of Repetition"[AIRS2004]).
更に,ラッパー生成に関する大規模な実験を行なうための準備として,学術情報に関する検索可能なWebデータベースの収集を行なった.収集したWebデータベースの一部は<http://kushida.cc.kyushu-u.ac.jp/~nakatoh/DBsOnTheWeb/>にて公開している.応用として,本研究の手法を一部利用し,日本の情報処理系学会の論文検索を,横断的,再帰的に行なうことが可能な統合検索システムを作成し,公開した<http://matu.cc.kyushu-u.ac.jp/guruguru/>.本システムは従来型の統合検索システムと異なり,提案ラッパーで切り出された複数の項目を再構成し,更に再検索のためのリンクが埋め込まれた出力を持つ点に特徴を持つ.

報告書

(2件)
  • 2005 実績報告書
  • 2004 実績報告書
  • 研究成果

    (8件)

すべて 2006 2005 2004

すべて 雑誌論文 (8件)

  • [雑誌論文] AN EFFICIENT MAPPING FOR SCORE OF STRING MATCHING2006

    • 著者名/発表者名
      Tetsuya Nakatoh
    • 雑誌名

      Journal of Automata, Languages and Combinatorics (印刷中)

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] INTEGRATED SEARCH TO TAXONOMIC DATABASES2005

    • 著者名/発表者名
      Tetsuya Nakatoh
    • 雑誌名

      TDWG 2005

      ページ: 54-54

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Testbed for Information Extraction from Deep Web.2004

    • 著者名/発表者名
      Yasuhiro Yamada
    • 雑誌名

      Proc.of the 13th International World Wide Web Conference

      ページ: 346-347

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] 検索サイトにおける入力項目と検索結果のフィールド名の対応調査2004

    • 著者名/発表者名
      大森 敬介
    • 雑誌名

      第3回情報科学技術フォーラム(FIT2004)

      ページ: 89-90

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Automatic Generation of Deep Web Wrappers based on Discovery of Repetition.2004

    • 著者名/発表者名
      Tetsuya Nakatoh
    • 雑誌名

      Proc.of the First Asia Information Retrieval Symposium

      ページ: 269-272

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] 検索エンジンを部品とするエージェントの構成について2004

    • 著者名/発表者名
      中藤 哲也
    • 雑誌名

      Proc.of JAWS2004 (Joint Agent Workshops & Symposium)

      ページ: 441-445

    • NAID

      120006654535

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] A Report on Metadata for Web Databases.2004

    • 著者名/発表者名
      Tetsuya Nakatoh
    • 雑誌名

      情報処理学会研究報告(IPSJ SIG Technical Reports) ICS-138

      ページ: 95-98

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] 複雑な検索サイトにおける入力フォーム情報の自動抽出2004

    • 著者名/発表者名
      大森 敬介
    • 雑誌名

      Data Engineering WorkShop (DEWS2005)

    • 関連する報告書
      2004 実績報告書

URL: 

公開日: 2004-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi