リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

Research Project

Project/Area Number	14019069
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Review Section	Science and Engineering
Research Institution	Kyushu University
Principal Investigator	廣川佐千男九州大学, 情報基盤センター, 教授 (40126785)
Co-Investigator(Kenkyū-buntansha)	池田大輔九州大学, 情報基盤センター, 講師 (00294992) 伊東栄典九州大学, 情報基盤センター, 助教授 (90294991)
Project Period (FY)	2002
Project Status	Completed (Fiscal Year 2002)
Budget Amount *help	¥4,300,000 (Direct Cost: ¥4,300,000) Fiscal Year 2002: ¥4,300,000 (Direct Cost: ¥4,300,000)
Keywords	Webマイニング / クローラー
Research Abstract	本研究では,WWW空間の特性である「リンク情報」と半構造性」を融合し活用することにより高品質コンテンツを効率良く収集する方式の開発を目指す.本年度は,具体的な対象として国内大学等で公開されているWebシラバスの収集のための研究を行なった.収集するデータの精度を向上するために,シラバスページの特性を調査した結果,シラバスサイトには,「科目を一覧するリンク集ページ」と「個々の科目を説明するページ」が存在することが判明した.前者をA型,後者をB型と定義した.既に収集している基礎データを基に,決定木と重回帰分析を用いてそれぞれのA型あるいはB型のページの判定方式を開発した.さらに,シラバス・ページに現れる特徴的キーワードと,それらの間のリンク情報の特徴を用いることにより,効率的にシラバス・ページ群を収集するクローラーの方式を考案し,実装した.実験的に収集した8万ページのWEBページ空間に限定し,収集率(Harvest Ration)の観点から,この手法とランダム収集,幅優先収集の比較を行なった. また,昨年考案したNグラム交代数を用いた方式を発展させたラッパー生成方式を開発し,4種類の自然言語(英語,日本語,ドイツ語,中国語),HTML,XMLの2種類のマークアップ言語で記述されている半構造化文書について実験を行ない,非常に高い抽出率を得ることができた.また,従来の研究で取り扱うことができなかったWebデータの意味的な処理として,新たに「同系統単語」を収集する方式を考案した.

Report

(1 results)

2002 Annual Research Report

Research Products

(5 results)

All Other

All Publications (5 results)

[Publications] T.Nakatoh, Y.Koga, A.Uhl, S.Hirokawa: "Automatic Estimation of Query Syntax for Search Sites"Proc. PYIWIT'02. 329-332 (2002)
- Related Report
  2002 Annual Research Report
[Publications] Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proc. Discovery Science 2002. 332-339 (2002)
- Related Report
  2002 Annual Research Report
[Publications] 山田信太郎, 伊東栄典, 廣川佐千男: "Web上に公開されたシラバス情報の自動収集"DICOMOシンポジウム論文集. 137-140 (2002)
- Related Report
  2002 Annual Research Report
[Publications] T.Miyahara, Y.Suzuki, T.Shoudai, T.Uchida, S.Hirokawa, K.Takahashi, H.Ueda: "Extraction of Tag Tree Patterns with Contractible Variables from Irregular Semistructured data"Proc. PAKDD. (採録決定). (2003)
- Related Report
  2002 Annual Research Report
[Publications] 山田信太郎, 伊東栄典, 廣川佐千男: "Webシラバス情報収集エージェントの試作"電子情報通信学会論文. (採録決定). (2003)
- Related Report
  2002 Annual Research Report

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

Principal Investigator

廣川 佐千男 九州大学, 情報基盤センター, 教授 (40126785)

¥4,300,000 (Direct Cost: ¥4,300,000)

Report

Research Products

[Publications] T.Nakatoh, Y.Koga, A.Uhl, S.Hirokawa: "Automatic Estimation of Query Syntax for Search Sites"Proc. PYIWIT'02. 329-332 (2002)

Related Report

[Publications] Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proc. Discovery Science 2002. 332-339 (2002)

Related Report

[Publications] 山田信太郎, 伊東栄典, 廣川佐千男: "Web上に公開されたシラバス情報の自動収集"DICOMOシンポジウム論文集. 137-140 (2002)

Related Report

[Publications] T.Miyahara, Y.Suzuki, T.Shoudai, T.Uchida, S.Hirokawa, K.Takahashi, H.Ueda: "Extraction of Tag Tree Patterns with Contractible Variables from Irregular Semistructured data"Proc. PAKDD. (採録決定). (2003)

Related Report

[Publications] 山田信太郎, 伊東栄典, 廣川佐千男: "Webシラバス情報収集エージェントの試作"電子情報通信学会論文. (採録決定). (2003)

Related Report

廣川佐千男九州大学, 情報基盤センター, 教授 (40126785)