• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

Research Project

Project/Area Number 15017269
Research Category

Grant-in-Aid for Scientific Research on Priority Areas

Allocation TypeSingle-year Grants
Review Section Science and Engineering
Research InstitutionKyushu University

Principal Investigator

廣川 佐千男  九州大学, 情報基盤センター, 教授 (40126785)

Co-Investigator(Kenkyū-buntansha) 池田 大輔  九州大学, 情報基盤センター, 講師 (00294992)
伊東 栄典  九州大学, 情報基盤センター, 助教授 (90294991)
Project Period (FY) 2003
Project Status Completed (Fiscal Year 2003)
Budget Amount *help
¥4,600,000 (Direct Cost: ¥4,600,000)
Fiscal Year 2003: ¥4,600,000 (Direct Cost: ¥4,600,000)
KeywordsWebマイニング / ラッパー / 情報検索 / 機械学習 / パターン抽出
Research Abstract

多量な同系統文書群は高品質であるというヒューリスティックに基づき,Web上の高品質文書群を効率良く発見するための研究を行なっている.本年度は,リンク構造と構造類似性で特徴付けられる「シリーズ型文書群」という概念を提案し,そのような文書群を効率的に発見収集するWebロボットの実装を行ない,その収集効率を定量的に評価した.また,シリーズ型文書群に対するメタデータを自動的に構成する手法を開発した.これとは別に,同系統文書群の発見について,部分文字列の出現頻度に着目した「部分文字列増幅法」を開発した.このアルゴリズムは,入力サイズの線形時間で動作し,類似構造を持つ文書群を網羅的に検出すると同時にクラスタリングも行なうものである.
本年度は,Web上半構造化データからの高品質同系統データ抽出について,HTMLファイルに繰り返し現われる特徴的なタグ・パターンの抽出法の開発と,コンテンツ収集を動的に制御できる目的指向Webロボット開発に重点を置き研究を進めた.前者については,部分文字列の出現頻度だけで重要パターンを高精度で抽出する部分文字列増幅法という新しい手法が開発できた.後者については,従来ターゲットとしてきた大学のシラバスについては1万件以上の収集が達成できた.さらにシラバス以外の一般的な「シリーズ型Web文書群」についてのWebロボット開発の目処がたち,その文書群に対するメタデータの自動生成手法を構築できた.

Report

(1 results)
  • 2003 Annual Research Report
  • Research Products

    (6 results)

All Other

All Publications (6 results)

  • [Publications] 山田信太郎, 松永吉広, 伊東栄典, 廣川佐千男: "Webシラバス情報収集エージェントの試作"電子情報通信学会論文誌D. J86-D-I. 566-574 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] D.Ikeda, Y.Yamada, S.Hirokawa: "Expressive power of tree and string based wrapper"Proc.IJCAI Workshop on Information Integration on the Web. 21-26 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] T.Nakatoh, K.Baba, D.Ikeda, Y.Yamada, S.Hirokawa: "An Efficient Mapping for scores of String Matching"Proc.Prague Stringology Conference. 127-136 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] S.Hirokawa, E.Itoh, T.Miyahara: "Semi-Automatic Construction of Metadata from A Series of Web Documents"Springer Lecture Notes in Computer Science. 2903. 942-953 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Y.Matsunaga, S.Yamada, E.Ito, S.Hirokawa: "A Web Syllabus Crawler and its Efficiency Evaluation"Proc.International Symposium on Information Science and Electrical Engineering. 565-568 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] M.Noguchi, S.Hirokawa: "A Prototype of Search Engine for Tables on the Web"Proc.International Symposium on Information Science and Electrical Engineering. 561-564 (2003)

    • Related Report
      2003 Annual Research Report

URL: 

Published: 2003-04-01   Modified: 2018-03-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi