研究概要 |
本研究では,大量のXMLデータを効率良く管理,検索するとともに,複数のシステム間のXMLデータの交換を容易にする開放型高機能XMLサーチエンジンの要素技術を開発し,そのプロトタイプを実装した. 通常のHTMLサーチエンジンと同様に,末端利用者を対象とし,少数のキーワード集合を入力するだけで,XML文書の構造情報と部分文書のベクトル情報をもとに,そのキーワード集合に合致する所望のXML部分文書を抽出するためのアルゴリズムを開発し,それに基づくプロトタイプシステムの開発を行った. また,部分文書自身を例として問合せに用い類似した部分文書を検索するためにキーワード一致とベクトル空間モデルを融合した検索モデルを開発した.種々の論理構造を有するXMLデータからキーワード集合などの簡易問合せにより,最適な部分XMLデタを検索するための手法を研究・開発し,XMLデータの簡易検索を可能とするシステムのプロトタイプを作成した.また,その評価を行うために,INEX (Initiative for the Evaluation ofXML retrieval)国際イニシアティブに参画し,IEEE論文誌の大量の論文(20種類6年分.論文総数12,107件)を対象とするテストコレクション作成に協力するとともに,プロトタイプシステムの本コレクション向けの改良を行った. 文書更新に効率的に対処可能な索引システム,文書の変更履歴を管理可能なデータモデルの開発を行った.検索,更新ともに効率よく実行可能なXMLデータ索引を実現するために,XMLの木構造を表現する符号化方法について研究し,そのためのノード符合化法として,rUID, QRSなどを考案した.
|