Budget Amount *help |
¥6,800,000 (Direct Cost: ¥6,800,000)
Fiscal Year 2002: ¥6,800,000 (Direct Cost: ¥6,800,000)
|
Research Abstract |
(1)XML文書検索システムの開発とテストコレクションの構築 XMLにデータの類似度などの連続量の概念を持つ問合せモデルを導入し,XML用サーチエンジンの検索アルゴリズムの開発と実験を行なった.利用者からの入力は,単語やタグ名の集合という単純な問合せを想定する.開発アルゴリズムの性能を評価するためには,テストコレクションが必要となるが,XML文書検索システムのためのテストコレクションの構築,評価基準および評価手法の設定を行うための国際的なプロジェクトであるINEX (Initiative for the Evaluation of XML retrieval)に我が国唯一のチームとして参加した. このプロジェクトのもとでIEEE論文誌の大量の論文(20種類6年分.論文総数12,107件)を対象とするテストコレクション作成に協力するとともに,プロトタイプシステムの本コレクション向けの改良を行った. (2)更新に対して頑健なXML索引の開発 XMLデータの特徴である木構造を効率良く表現する符号化法やその符号化法を用いた,検索,更新ともに効率良く実行可能なXMLデータ索引として以下の三種類の索引の開発を行った.一つめは,部分文書挿入箇所からある閾値内の近傍のラベルを局所的に付け替えることにより大規模なラベル付け替えを防ぐ動的範囲ラベル付け手法である.二番目の方法である区間4分割法は,挿入箇所のリージョンを表現するために浮動小数点を用いることにより付け替えを必要とするラベルの数を削減する.実験により,検索と更新の比が9対1の場合でも,従来の静的なリージョンに比較し,性能が向上することを示した.三番目の方法は,rUID(recursive UID)であり,大規模なXML文書に対しても与えられたノード番号からその親ノードの番号を簡単に計算可能である特徴を持つ.
|