研究概要 |
本研究では,WWW空間の特性である「リンク情報」と半構造性」を融合し活用することにより高品質コンテンツを効率良く収集する方式の開発を目指す.本年度は,具体的な対象として国内大学等で公開されているWebシラバスの収集のための研究を行なった.収集するデータの精度を向上するために,シラバスページの特性を調査した結果,シラバスサイトには,「科目を一覧するリンク集ページ」と「個々の科目を説明するページ」が存在することが判明した.前者をA型,後者をB型と定義した.既に収集している基礎データを基に,決定木と重回帰分析を用いてそれぞれのA型あるいはB型のページの判定方式を開発した.さらに,シラバス・ページに現れる特徴的キーワードと,それらの間のリンク情報の特徴を用いることにより,効率的にシラバス・ページ群を収集するクローラーの方式を考案し,実装した.実験的に収集した8万ページのWEBページ空間に限定し,収集率(Harvest Ration)の観点から,この手法とランダム収集,幅優先収集の比較を行なった. また,昨年考案したNグラム交代数を用いた方式を発展させたラッパー生成方式を開発し,4種類の自然言語(英語,日本語,ドイツ語,中国語),HTML,XMLの2種類のマークアップ言語で記述されている半構造化文書について実験を行ない,非常に高い抽出率を得ることができた.また,従来の研究で取り扱うことができなかったWebデータの意味的な処理として,新たに「同系統単語」を収集する方式を考案した.
|