2002 Fiscal Year Annual Research Report
リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
Project/Area Number |
14019069
|
Research Institution | Kyushu University |
Principal Investigator |
廣川 佐千男 九州大学, 情報基盤センター, 教授 (40126785)
|
Co-Investigator(Kenkyū-buntansha) |
池田 大輔 九州大学, 情報基盤センター, 講師 (00294992)
伊東 栄典 九州大学, 情報基盤センター, 助教授 (90294991)
|
Keywords | Webマイニング / クローラー |
Research Abstract |
本研究では,WWW空間の特性である「リンク情報」と半構造性」を融合し活用することにより高品質コンテンツを効率良く収集する方式の開発を目指す.本年度は,具体的な対象として国内大学等で公開されているWebシラバスの収集のための研究を行なった.収集するデータの精度を向上するために,シラバスページの特性を調査した結果,シラバスサイトには,「科目を一覧するリンク集ページ」と「個々の科目を説明するページ」が存在することが判明した.前者をA型,後者をB型と定義した.既に収集している基礎データを基に,決定木と重回帰分析を用いてそれぞれのA型あるいはB型のページの判定方式を開発した.さらに,シラバス・ページに現れる特徴的キーワードと,それらの間のリンク情報の特徴を用いることにより,効率的にシラバス・ページ群を収集するクローラーの方式を考案し,実装した.実験的に収集した8万ページのWEBページ空間に限定し,収集率(Harvest Ration)の観点から,この手法とランダム収集,幅優先収集の比較を行なった. また,昨年考案したNグラム交代数を用いた方式を発展させたラッパー生成方式を開発し,4種類の自然言語(英語,日本語,ドイツ語,中国語),HTML,XMLの2種類のマークアップ言語で記述されている半構造化文書について実験を行ない,非常に高い抽出率を得ることができた.また,従来の研究で取り扱うことができなかったWebデータの意味的な処理として,新たに「同系統単語」を収集する方式を考案した.
|
-
[Publications] T.Nakatoh, Y.Koga, A.Uhl, S.Hirokawa: "Automatic Estimation of Query Syntax for Search Sites"Proc. PYIWIT'02. 329-332 (2002)
-
[Publications] Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proc. Discovery Science 2002. 332-339 (2002)
-
[Publications] 山田信太郎, 伊東栄典, 廣川佐千男: "Web上に公開されたシラバス情報の自動収集"DICOMOシンポジウム論文集. 137-140 (2002)
-
[Publications] T.Miyahara, Y.Suzuki, T.Shoudai, T.Uchida, S.Hirokawa, K.Takahashi, H.Ueda: "Extraction of Tag Tree Patterns with Contractible Variables from Irregular Semistructured data"Proc. PAKDD. (採録決定). (2003)
-
[Publications] 山田信太郎, 伊東栄典, 廣川佐千男: "Webシラバス情報収集エージェントの試作"電子情報通信学会論文. (採録決定). (2003)