研究課題
本課題は、WWW上で提供されている多種多様なコンテンツを分かりやすく提示するのに必要な「サイトマップ」の効率的な構築と提供が行える環境の開発を目指すものである。研究初年度にあたる平成17年度では、以下を中心に検討を進めた。1.既存の用語体系に存在する構造の調査・分析既存の用語体系として、書籍の分類体系であるNDC日本十進分類表、WWW上の情報を網羅するWebディレクトリODP、日本語情報処理で蓄積されたNTT語彙体系など、複数の用語体系に存在する構造を元に、それぞれの構造を把握し、構造の共有と利用に必要な要素の洗い出しを進めた。類似用語体系間の関連を分析するため、NDC9版とNDC8版との構造の調査や、日英対訳辞書における用語体系の構造の調査、分析を行った。また、国立国会図書館で提供されている件名標目NDLSHの調査、検討もあわせて行った。2.サイトマップ構築・検出手法の開発既存のサイトマップの分析の一環として、現在Web上で提供されているサイトマップを高精度で検出する手法の開発を進めた。3.日本のウェブサイト空間に存在する構造の調査・分析WWW空間に蓄積された情報の全体像を把握するため、情報検索評価プロジェクトNTCIR-5 WEBナビゲーション指向検索タスク用に収集された1TB・1億ページにおよぶ文書群の構成を調査、分析した。既存のウェブサーチエンジンにおけるページ収集との比較検討のため、Web APIを利用した実態調査により、その全体像の調査、分析を行った。
すべて 2005
すべて 雑誌論文 (2件)
情報知識学会論文誌 15(4)
ページ: 47-56
Proceedings of the Fifth NTCIR Workshop Meeting on Evaluation of Information Access Technologies : Information Retrieval, Question Answering and Cross-Lingual Information Access
ページ: 423-442