リンク情報とWebデータの半構造性を融合した高品質広域コンテンツ・マイニング

研究課題

研究課題/領域番号	13224072
研究種目	特定領域研究(C)
配分区分	補助金
審査区分	理工系
研究機関	九州大学
研究代表者	廣川佐千男九州大学, 情報基盤センター, 教授 (40126785)
研究分担者	池田大輔九州大学, 情報基盤センター, 講師 (00294992) 伊東栄典九州大学, 情報基盤センター, 助教授 (90294991)
研究期間 (年度)	2001
研究課題ステータス	完了 (2001年度)
キーワード	リンク情報 / 半構造データ / Webグラフ
研究概要	Webデータは人間が作成するにせよ、データベース等から半自動的に生成されるにせよ、ハイパーリンクと半構造性の2つの特色を持ち、これが従来のリレーショナル・データや単純なテキストデータやマルチメディア・データと大きく異なる点である。本研究は、同一の意味的内容のコンテンツを持つ高品質な広域Webデータ群を抽出するために、リンク情報とWebデータの半構造性を融合した手法の開発研究を行った。従来開発してきたリンクデータベースでは、存在しなくなったページや、誤った記述を含むページの処理でハングアップするという問題があった。そこで本年度はまず、postgressを使い頑強なリンクデータベースを再構築した。また、テキスト中のn-gramの出現頻度と長さnに基づき、重要部分と非重要部分を分離する手法を開発した。その成果は、国際会議における2編の論文として発表した。リンク情報を知識として活用する枠組みとして、Webのナビゲーションへの応用システムを開発し、ICCE2001ならびにWebNet2001において論文発表した。関連するWebページ群を、その間のリンク情報を用いてグラフをして表現し、そのコミュニティ分析にグラフを表す行列の特異値分解が有効であることを具体例を用いて示した。

報告書

(1件)

2001 実績報告書

研究成果
(5件)

すべてその他

すべて文献書誌 (5件)

[文献書誌] K.Nishino, D.Nagano, S.Hirokawa: "Generation of Navigation Script from Log and Link"Proc. WebNet 2001. 534-539 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] K.Nishino, S.Hirokawa: "Rapid Prototyping of WWW Tour from Browsing History and Link"Proc. ICCE/Shool Net2001. 1545-1548 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] 廣川佐千男, 池田大輔: "Webグラフの構造解析"人工知能学会誌. 16・4. 525-529 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] D.Ikeda, Y.Yamada, S.Hirokawa: "Eliminating Useless Parts in Semi-structured Documents using Alternation Counts"Springer LNCS. 2226. 113-127 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] Y.Yamada, D.Ikeda, S.Hirokawa: "SCOOP : A Record Extractor without Knowledge on Input"Springer LNCS. 2226. 225-228 (2001)
- 関連する報告書
  2001 実績報告書

リンク情報とWebデータの半構造性を融合した高品質広域コンテンツ・マイニング

研究代表者

廣川 佐千男 九州大学, 情報基盤センター, 教授 (40126785)

報告書

研究成果

[文献書誌] K.Nishino, D.Nagano, S.Hirokawa: "Generation of Navigation Script from Log and Link"Proc. WebNet 2001. 534-539 (2001)

関連する報告書

[文献書誌] K.Nishino, S.Hirokawa: "Rapid Prototyping of WWW Tour from Browsing History and Link"Proc. ICCE/Shool Net2001. 1545-1548 (2001)

関連する報告書

[文献書誌] 廣川佐千男, 池田大輔: "Webグラフの構造解析"人工知能学会誌. 16・4. 525-529 (2001)

関連する報告書

[文献書誌] D.Ikeda, Y.Yamada, S.Hirokawa: "Eliminating Useless Parts in Semi-structured Documents using Alternation Counts"Springer LNCS. 2226. 113-127 (2001)

関連する報告書

[文献書誌] Y.Yamada, D.Ikeda, S.Hirokawa: "SCOOP : A Record Extractor without Knowledge on Input"Springer LNCS. 2226. 225-228 (2001)

関連する報告書

廣川佐千男九州大学, 情報基盤センター, 教授 (40126785)