• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2003 年度 実績報告書

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

研究課題

研究課題/領域番号 15017269
研究機関九州大学

研究代表者

廣川 佐千男  九州大学, 情報基盤センター, 教授 (40126785)

研究分担者 池田 大輔  九州大学, 情報基盤センター, 講師 (00294992)
伊東 栄典  九州大学, 情報基盤センター, 助教授 (90294991)
キーワードWebマイニング / ラッパー / 情報検索 / 機械学習 / パターン抽出
研究概要

多量な同系統文書群は高品質であるというヒューリスティックに基づき,Web上の高品質文書群を効率良く発見するための研究を行なっている.本年度は,リンク構造と構造類似性で特徴付けられる「シリーズ型文書群」という概念を提案し,そのような文書群を効率的に発見収集するWebロボットの実装を行ない,その収集効率を定量的に評価した.また,シリーズ型文書群に対するメタデータを自動的に構成する手法を開発した.これとは別に,同系統文書群の発見について,部分文字列の出現頻度に着目した「部分文字列増幅法」を開発した.このアルゴリズムは,入力サイズの線形時間で動作し,類似構造を持つ文書群を網羅的に検出すると同時にクラスタリングも行なうものである.
本年度は,Web上半構造化データからの高品質同系統データ抽出について,HTMLファイルに繰り返し現われる特徴的なタグ・パターンの抽出法の開発と,コンテンツ収集を動的に制御できる目的指向Webロボット開発に重点を置き研究を進めた.前者については,部分文字列の出現頻度だけで重要パターンを高精度で抽出する部分文字列増幅法という新しい手法が開発できた.後者については,従来ターゲットとしてきた大学のシラバスについては1万件以上の収集が達成できた.さらにシラバス以外の一般的な「シリーズ型Web文書群」についてのWebロボット開発の目処がたち,その文書群に対するメタデータの自動生成手法を構築できた.

  • 研究成果

    (6件)

すべて その他

すべて 文献書誌 (6件)

  • [文献書誌] 山田信太郎, 松永吉広, 伊東栄典, 廣川佐千男: "Webシラバス情報収集エージェントの試作"電子情報通信学会論文誌D. J86-D-I. 566-574 (2003)

  • [文献書誌] D.Ikeda, Y.Yamada, S.Hirokawa: "Expressive power of tree and string based wrapper"Proc.IJCAI Workshop on Information Integration on the Web. 21-26 (2003)

  • [文献書誌] T.Nakatoh, K.Baba, D.Ikeda, Y.Yamada, S.Hirokawa: "An Efficient Mapping for scores of String Matching"Proc.Prague Stringology Conference. 127-136 (2003)

  • [文献書誌] S.Hirokawa, E.Itoh, T.Miyahara: "Semi-Automatic Construction of Metadata from A Series of Web Documents"Springer Lecture Notes in Computer Science. 2903. 942-953 (2003)

  • [文献書誌] Y.Matsunaga, S.Yamada, E.Ito, S.Hirokawa: "A Web Syllabus Crawler and its Efficiency Evaluation"Proc.International Symposium on Information Science and Electrical Engineering. 565-568 (2003)

  • [文献書誌] M.Noguchi, S.Hirokawa: "A Prototype of Search Engine for Tables on the Web"Proc.International Symposium on Information Science and Electrical Engineering. 561-564 (2003)

URL: 

公開日: 2005-04-18   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi