本課題は、WWW上で提供されている多種多様なコンテンツを分かりやすく提示するのに必要な「サイトマップ」の効率的な構築と提供が行える環境の開発を目指すものである。 本年度は二年度目にあたる。平成18年度では、以下を中心に検討を進めた。 1.既存の用語体系に存在する構造の調査・分析 前年度から引き続き、既存の用語体系の構造調査を行った。 特にWWW上の情報として、新たにWeb2.0とも呼ばれる新たな情報共有システムの出現で注目を集めるWikipediaにも着目し、この構造解析に取り組み、本研究課題における適用可能性を検討した。 2.サイトマップ構築・検出手法の開発およびウェブ空間の解析 前年度から引き続き、サイトマップ検出手法の開発を行った。手法検討の一部として、学術サイトに焦点を絞り、他のDBとあわせて提示する手法の検討とプロトタイプ開発を行った。これについては一部を口頭発表した。 また、既存のWeb空間解析の手法の確認および検証作業も進めた。なお、NTCIR-5 WEBタスクにおける約1億ページ(約1.36TB)からなるデータ集合の解析を行い、NII Technical Reportとして発表した。 最終年度にあたっては、サイトマップ開発手法の定式化およびプロトタイプシステムの構築、洗練化に焦点をあてる予定である。
|