WWW上サイトマップの再利用促進のための分散型用語体系提供システムの研究

研究課題番号:17700130

2006年度 研究実績報告書

代表者

    • 高久 雅生
    • 研究者番号:00399271
    • 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター)・プロジェクト研究員

研究課題基本情報

  • 研究期間

    2006年度〜2006年度

  • 研究分野

    メディア情報学・データベース

  • 審査区分

  • 研究種目

    若手研究(B)

  • 研究機関

    大学共同利用機関法人情報・システム研究機構(新領域融合研究センター)

  • 配分額

    • 2005年度:700千円 (直接経費:700千円)
    • 2006年度:700千円 (直接経費:700千円)
    • 2007年度:600千円 (直接経費:600千円)

研究概要

本課題は、WWW上で提供されている多種多様なコンテンツを分かりやすく提示するのに必要な「サイトマップ」の効率的な構築と提供が行える環境の開発を目指すものである。

本年度は二年度目にあたる。平成18年度では、以下を中心に検討を進めた。

1.既存の用語体系に存在する構造の調査・分析

前年度から引き続き、既存の用語体系の構造調査を行った。

特にWWW上の情報として、新たにWeb2.0とも呼ばれる新たな情報共有システムの出現で注目を集めるWikipediaにも着目し、この構造解析に取り組み、本研究課題における適用可能性を検討した。

2.サイトマップ構築・検出手法の開発およびウェブ空間の解析

前年度から引き続き、サイトマップ検出手法の開発を行った。手法検討の一部として、学術サイトに焦点を絞り、他のDBとあわせて提示する手法の検討とプロトタイプ開発を行った。これについては一部を口頭発表した。

また、既存のWeb空間解析の手法の確認および検証作業も進めた。なお、NTCIR-5 WEBタスクにおける約1億ページ(約1.36TB)からなるデータ集合の解析を行い、NII Technical Reportとして発表した。

最終年度にあたっては、サイトマップ開発手法の定式化およびプロトタイプシステムの構築、洗練化に焦点をあてる予定である。

発表文献

雑誌論文

  • Masao Takaku et al.: "Building a Terabyte-scale Web Data Collection "NW1000G-04" in the NTCIR-5 WEB Task" NII Technical Report NII-2006-012E. 8 (2006),

  • 高久雅生, 相澤彰子, 大山敬三: "科研費データベースにもとつく研究者情報プラウジングツール" 「大規模データ・リンケージ、データマイニングと統計手法」研究会. 89-96 (2006)

  • 高久雅生, 相澤彰子, 大山敬三: "研究者情報サーバの構築 : ネットワーク構造可視化と解析の試み" 「シンボリック・データ解析と周辺技法」研究会. 35-41 (2007)

このページのURI

http://kaken.nii.ac.jp/ja/p/17700130/2006/3/ja