2004 Fiscal Year Annual Research Report
リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
Project/Area Number |
16016267
|
Research Institution | Kyushu University |
Principal Investigator |
廣川 佐千男 九州大学, 情報基盤センター, 教授 (40126785)
|
Co-Investigator(Kenkyū-buntansha) |
伊東 栄典 九州大学, 情報基盤センター, 助教授 (90294991)
池田 大輔 九州大学, 附属図書館, 助教授 (00294992)
中藤 哲也 九州大学, 情報基盤センター, 助手 (20253502)
|
Keywords | Webマイニング / 半構造データ / 情報検索 / パターン発見 / クローラー / リンク情報 |
Research Abstract |
リンク情報は重要性,信頼性の尺度として有効であることが知られている。しかしリンク情報は,意味や粒度の同一性を保証するものではない。一方,Webページ内のコンテンツは意味に応じて特定パターンや階層構造として表現される。例えば,料理のレシピや大学のシラバス・ページなどは,共通のテンプレートで記述され,共通の一覧ページからリンクされている。本研究では,リンク情報と半構造性を利用して高品質Webコンテンツを大量に効率よく発見し,抽出と統合する手法の研究を行ない,次のような成果を得た。 (1)データ発見と頻出パタンマイニング従来の研究では,入力として構造的な類似性を持つWebページ群が仮定されている。本研究では,これらを,クローラー等が収集した大量のWebページからを発見するアルゴリズムを提案した。 (2)シリーズ型Web文書収集クローラーWebマイニングの応用として,大学のシラバスを収集・統合し,検索できるシステムの研究を行なっている。そのため,少数のキーワードを与えるだけで,トピックに関するシリーズ型のページを効率良く集めるWeb文書収集クローラーを開発し,大学のシラバス,料理のレシピ集などを集める実験を行い,その効果を評価した。 (3)複雑な検索サイトに関する調査Webインターフェースを持つデータベースは検索サイトと呼ばれ,一般のWebページを大幅に上回る量の情報が存在すると言われる。これらを統合するために本年度は,これら検索サイトのインターフェースを実現しているフォーム情報の分析を行なった。
|