• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

研究課題

研究課題/領域番号 14019069
研究種目

特定領域研究

配分区分補助金
審査区分 理工系
研究機関九州大学

研究代表者

廣川 佐千男  九州大学, 情報基盤センター, 教授 (40126785)

研究分担者 池田 大輔  九州大学, 情報基盤センター, 講師 (00294992)
伊東 栄典  九州大学, 情報基盤センター, 助教授 (90294991)
研究期間 (年度) 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
4,300千円 (直接経費: 4,300千円)
2002年度: 4,300千円 (直接経費: 4,300千円)
キーワードWebマイニング / クローラー
研究概要

本研究では,WWW空間の特性である「リンク情報」と半構造性」を融合し活用することにより高品質コンテンツを効率良く収集する方式の開発を目指す.本年度は,具体的な対象として国内大学等で公開されているWebシラバスの収集のための研究を行なった.収集するデータの精度を向上するために,シラバスページの特性を調査した結果,シラバスサイトには,「科目を一覧するリンク集ページ」と「個々の科目を説明するページ」が存在することが判明した.前者をA型,後者をB型と定義した.既に収集している基礎データを基に,決定木と重回帰分析を用いてそれぞれのA型あるいはB型のページの判定方式を開発した.さらに,シラバス・ページに現れる特徴的キーワードと,それらの間のリンク情報の特徴を用いることにより,効率的にシラバス・ページ群を収集するクローラーの方式を考案し,実装した.実験的に収集した8万ページのWEBページ空間に限定し,収集率(Harvest Ration)の観点から,この手法とランダム収集,幅優先収集の比較を行なった.
また,昨年考案したNグラム交代数を用いた方式を発展させたラッパー生成方式を開発し,4種類の自然言語(英語,日本語,ドイツ語,中国語),HTML,XMLの2種類のマークアップ言語で記述されている半構造化文書について実験を行ない,非常に高い抽出率を得ることができた.また,従来の研究で取り扱うことができなかったWebデータの意味的な処理として,新たに「同系統単語」を収集する方式を考案した.

報告書

(1件)
  • 2002 実績報告書
  • 研究成果

    (5件)

すべて その他

すべて 文献書誌 (5件)

  • [文献書誌] T.Nakatoh, Y.Koga, A.Uhl, S.Hirokawa: "Automatic Estimation of Query Syntax for Search Sites"Proc. PYIWIT'02. 329-332 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proc. Discovery Science 2002. 332-339 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 山田信太郎, 伊東栄典, 廣川佐千男: "Web上に公開されたシラバス情報の自動収集"DICOMOシンポジウム論文集. 137-140 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] T.Miyahara, Y.Suzuki, T.Shoudai, T.Uchida, S.Hirokawa, K.Takahashi, H.Ueda: "Extraction of Tag Tree Patterns with Contractible Variables from Irregular Semistructured data"Proc. PAKDD. (採録決定). (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 山田信太郎, 伊東栄典, 廣川佐千男: "Webシラバス情報収集エージェントの試作"電子情報通信学会論文. (採録決定). (2003)

    • 関連する報告書
      2002 実績報告書

URL: 

公開日: 2002-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi