2001 Fiscal Year Annual Research Report
リンク情報とWebデータの半構造性を融合した高品質広域コンテンツ・マイニング
Project/Area Number |
13224072
|
Research Institution | Kyushu University |
Principal Investigator |
廣川 佐千男 九州大学, 情報基盤センター, 教授 (40126785)
|
Co-Investigator(Kenkyū-buntansha) |
池田 大輔 九州大学, 情報基盤センター, 講師 (00294992)
伊東 栄典 九州大学, 情報基盤センター, 助教授 (90294991)
|
Keywords | リンク情報 / 半構造データ / Webグラフ |
Research Abstract |
Webデータは人間が作成するにせよ、データベース等から半自動的に生成されるにせよ、ハイパーリンクと半構造性の2つの特色を持ち、これが従来のリレーショナル・データや単純なテキストデータやマルチメディア・データと大きく異なる点である。本研究は、同一の意味的内容のコンテンツを持つ高品質な広域Webデータ群を抽出するために、リンク情報とWebデータの半構造性を融合した手法の開発研究を行った。従来開発してきたリンクデータベースでは、存在しなくなったページや、誤った記述を含むページの処理でハングアップするという問題があった。そこで本年度はまず、postgressを使い頑強なリンクデータベースを再構築した。また、テキスト中のn-gramの出現頻度と長さnに基づき、重要部分と非重要部分を分離する手法を開発した。その成果は、国際会議における2編の論文として発表した。リンク情報を知識として活用する枠組みとして、Webのナビゲーションへの応用システムを開発し、ICCE2001ならびにWebNet2001において論文発表した。関連するWebページ群を、その間のリンク情報を用いてグラフをして表現し、そのコミュニティ分析にグラフを表す行列の特異値分解が有効であることを具体例を用いて示した。
|
Research Products
(5 results)
-
[Publications] K.Nishino, D.Nagano, S.Hirokawa: "Generation of Navigation Script from Log and Link"Proc. WebNet 2001. 534-539 (2001)
-
[Publications] K.Nishino, S.Hirokawa: "Rapid Prototyping of WWW Tour from Browsing History and Link"Proc. ICCE/Shool Net2001. 1545-1548 (2001)
-
[Publications] 廣川佐千男, 池田大輔: "Webグラフの構造解析"人工知能学会誌. 16・4. 525-529 (2001)
-
[Publications] D.Ikeda, Y.Yamada, S.Hirokawa: "Eliminating Useless Parts in Semi-structured Documents using Alternation Counts"Springer LNCS. 2226. 113-127 (2001)
-
[Publications] Y.Yamada, D.Ikeda, S.Hirokawa: "SCOOP : A Record Extractor without Knowledge on Input"Springer LNCS. 2226. 225-228 (2001)