研究概要 |
多量な同系統文書群は高品質であるというヒューリスティックに基づき,Web上の高品質文書群を効率良く発見するための研究を行なっている.本年度は,リンク構造と構造類似性で特徴付けられる「シリーズ型文書群」という概念を提案し,そのような文書群を効率的に発見収集するWebロボットの実装を行ない,その収集効率を定量的に評価した.また,シリーズ型文書群に対するメタデータを自動的に構成する手法を開発した.これとは別に,同系統文書群の発見について,部分文字列の出現頻度に着目した「部分文字列増幅法」を開発した.このアルゴリズムは,入力サイズの線形時間で動作し,類似構造を持つ文書群を網羅的に検出すると同時にクラスタリングも行なうものである. 本年度は,Web上半構造化データからの高品質同系統データ抽出について,HTMLファイルに繰り返し現われる特徴的なタグ・パターンの抽出法の開発と,コンテンツ収集を動的に制御できる目的指向Webロボット開発に重点を置き研究を進めた.前者については,部分文字列の出現頻度だけで重要パターンを高精度で抽出する部分文字列増幅法という新しい手法が開発できた.後者については,従来ターゲットとしてきた大学のシラバスについては1万件以上の収集が達成できた.さらにシラバス以外の一般的な「シリーズ型Web文書群」についてのWebロボット開発の目処がたち,その文書群に対するメタデータの自動生成手法を構築できた.
|