研究概要 |
リンク情報は重要性,信頼性の尺度として有効であることが知られている。しかしリンク情報は,意味や粒度の同一性を保証するものではない。一方,Webページ内のコンテンツは意味に応じて特定パターンや階層構造として表現される。例えば,料理のレシピや大学のシラバス・ページなどは,共通のテンプレートで記述され,共通の一覧ページからリンクされている。本研究では,リンク情報と半構造性を利用して高品質Webコンテンツを大量に効率よく発見し,抽出と統合する手法の研究を行ない,次のような成果を得た。 (1)データ発見と頻出パタンマイニング従来の研究では,入力として構造的な類似性を持つWebページ群が仮定されている。本研究では,これらを,クローラー等が収集した大量のWebページからを発見するアルゴリズムを提案した。 (2)シリーズ型Web文書収集クローラーWebマイニングの応用として,大学のシラバスを収集・統合し,検索できるシステムの研究を行なっている。そのため,少数のキーワードを与えるだけで,トピックに関するシリーズ型のページを効率良く集めるWeb文書収集クローラーを開発し,大学のシラバス,料理のレシピ集などを集める実験を行い,その効果を評価した。 (3)複雑な検索サイトに関する調査Webインターフェースを持つデータベースは検索サイトと呼ばれ,一般のWebページを大幅に上回る量の情報が存在すると言われる。これらを統合するために本年度は,これら検索サイトのインターフェースを実現しているフォーム情報の分析を行なった。
|