WWW上サイトマップの再利用促進のための分散型用語体系提供システムの研究

Research Project Number:17700130

FY2005 Annual Research Report

Principal Investigator

    • 高久 雅生
    • Researcher Number:00399271
    • 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター)・融合プロジェクト研究員

Basic Information of this Research Project

  • Project Year

    2005~2007

  • Research Field

    メディア情報学・データベース

  • Screaning Classification

  • Research Category

    若手研究(B)

  • Research Institution

    大学共同利用機関法人情報・システム研究機構(新領域融合研究センター)

  • Budget Amount

    • FY2007:¥600000 (Direct:¥600000)
    • FY2006:¥700000 (Direct:¥700000)
    • FY2005:¥700000 (Direct:¥700000)

Abstract

本課題は、WWW上で提供されている多種多様なコンテンツを分かりやすく提示するのに必要な「サイトマップ」の効率的な構築と提供が行える環境の開発を目指すものである。 研究初年度にあたる平成17年度では、以下を中心に検討を進めた。 1.既存の用語体系に存在する構造の調査・分析 既存の用語体系として、書籍の分類体系であるNDC日本十進分類表、WWW上の情報を網羅するWebディレクトリODP、日本語情報処理で蓄積されたNTT語彙体系など、複数の用語体系に存在する構造を元に、それぞれの構造を把握し、構造の共有と利用に必要な要素の洗い出しを進めた。類似用語体系間の関連を分析するため、NDC9版とNDC8版との構造の調査や、日英対訳辞書における用語体系の構造の調査、分析を行った。また、国立国会図書館で提供されている件名標目NDLSHの調査、検討もあわせて行った。 2.サイトマップ構築・検出手法の開発 既存のサイトマップの分析の一環として、現在Web上で提供されているサイトマップを高精度で検出する手法の開発を進めた。 3.日本のウェブサイト空間に存在する構造の調査・分析 WWW空間に蓄積された情報の全体像を把握するため、情報検索評価プロジェクトNTCIR-5 WEBナビゲーション指向検索タスク用に収集された1TB・1億ページにおよぶ文書群の構成を調査、分析した。既存のウェブサーチエンジンにおけるページ収集との比較検討のため、Web APIを利用した実態調査により、その全体像の調査、分析を行った。

Publications

URI of this page

http://kaken.nii.ac.jp/en/p/17700130/2005/3/ja