• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2004 Fiscal Year Annual Research Report

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

Research Project

Project/Area Number 16016267
Research InstitutionKyushu University

Principal Investigator

廣川 佐千男  九州大学, 情報基盤センター, 教授 (40126785)

Co-Investigator(Kenkyū-buntansha) 伊東 栄典  九州大学, 情報基盤センター, 助教授 (90294991)
池田 大輔  九州大学, 附属図書館, 助教授 (00294992)
中藤 哲也  九州大学, 情報基盤センター, 助手 (20253502)
KeywordsWebマイニング / 半構造データ / 情報検索 / パターン発見 / クローラー / リンク情報
Research Abstract

リンク情報は重要性,信頼性の尺度として有効であることが知られている。しかしリンク情報は,意味や粒度の同一性を保証するものではない。一方,Webページ内のコンテンツは意味に応じて特定パターンや階層構造として表現される。例えば,料理のレシピや大学のシラバス・ページなどは,共通のテンプレートで記述され,共通の一覧ページからリンクされている。本研究では,リンク情報と半構造性を利用して高品質Webコンテンツを大量に効率よく発見し,抽出と統合する手法の研究を行ない,次のような成果を得た。
(1)データ発見と頻出パタンマイニング従来の研究では,入力として構造的な類似性を持つWebページ群が仮定されている。本研究では,これらを,クローラー等が収集した大量のWebページからを発見するアルゴリズムを提案した。
(2)シリーズ型Web文書収集クローラーWebマイニングの応用として,大学のシラバスを収集・統合し,検索できるシステムの研究を行なっている。そのため,少数のキーワードを与えるだけで,トピックに関するシリーズ型のページを効率良く集めるWeb文書収集クローラーを開発し,大学のシラバス,料理のレシピ集などを集める実験を行い,その効果を評価した。
(3)複雑な検索サイトに関する調査Webインターフェースを持つデータベースは検索サイトと呼ばれ,一般のWebページを大幅に上回る量の情報が存在すると言われる。これらを統合するために本年度は,これら検索サイトのインターフェースを実現しているフォーム情報の分析を行なった。

  • Research Products

    (5 results)

All 2005 2004

All Journal Article (5 results)

  • [Journal Article] 部分文字列増幅法による共通パタン発見アルゴリズム2005

    • Author(s)
      池田大輔, 山田泰寛, 廣川佐千男
    • Journal Title

      情報処理学会論文誌「数理モデル化と応用」 46・2

      Pages: 56-66

  • [Journal Article] 交代数を用いた他言語Webテキストからの共通部分特定とラッパーの生成法2004

    • Author(s)
      山田泰寛, 池田大輔, 廣川佐千男
    • Journal Title

      情報処理学会論文誌 45・9

      Pages: 2138-2145

  • [Journal Article] Testbed for Information Extraction from Deep Web2004

    • Author(s)
      Yasuhiro Yamada, Nick Craswell, Tetsuya Nakatoh, Sachio Hirokawa
    • Journal Title

      Proc.13th International World Wide Web Conference, Alternate Track Papers and Posters

      Pages: 346-347

  • [Journal Article] Automatic Generation of Deep Web Wrappers based on Discovery of Repetition2004

    • Author(s)
      Tetsuya Nakatoh, Yasuhiro Yamada, Sachio Hirokawa
    • Journal Title

      Proc.1st Asia Information Retrieval Symposium

      Pages: 269-272

  • [Journal Article] Gathering Text Files Generated from Templates2004

    • Author(s)
      Daisuke Ikeda, Yasuhiro Yamada
    • Journal Title

      Proc.VLDB Workshop on Information Integration on the Web

      Pages: 21-26

URL: 

Published: 2006-07-12   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi