Webデータは人間が作成するにせよ、データベース等から半自動的に生成されるにせよ、ハイパーリンクと半構造性の2つの特色を持ち、これが従来のリレーショナル・データや単純なテキストデータやマルチメディア・データと大きく異なる点である。本研究は、同一の意味的内容のコンテンツを持つ高品質な広域Webデータ群を抽出するために、リンク情報とWebデータの半構造性を融合した手法の開発研究を行った。従来開発してきたリンクデータベースでは、存在しなくなったページや、誤った記述を含むページの処理でハングアップするという問題があった。そこで本年度はまず、postgressを使い頑強なリンクデータベースを再構築した。また、テキスト中のn-gramの出現頻度と長さnに基づき、重要部分と非重要部分を分離する手法を開発した。その成果は、国際会議における2編の論文として発表した。リンク情報を知識として活用する枠組みとして、Webのナビゲーションへの応用システムを開発し、ICCE2001ならびにWebNet2001において論文発表した。関連するWebページ群を、その間のリンク情報を用いてグラフをして表現し、そのコミュニティ分析にグラフを表す行列の特異値分解が有効であることを具体例を用いて示した。
|