研究概要 |
近年,半構造データを効率よく扱える言語として,XML(Extensible Markup Language)が注目されており,それに伴い,大規模のXML文書データを効率よく記憶・管理することの重要性が高まってきている.XML文書の論理構造は木構造を用いて表現することが可能であるが,XML文書データの管理において,文書構造を効率よく管理するために,文書から得られるXML木ノードへの効率のよいラベル付けの方法を提供することが重要である.本年度は,経歴オフセット法を応用したシステムの方式として,XML木の構造更新に対応した新たなラベル付けの方式を提案して,実装・評価した.この手法は,経歴オフセット法による多次元データセットのエンコード方式に基づいており,XML木を多次元拡張可能配列へと埋め込むことによりエンコードを行うが,XML木の構造更新に対し,再ラベル付けを行う必要はない.本方式の最も優れた点として,同種の他方式と比べ,ノードの追加場所と順序に関わらず,ラベルの記憶コストが格段に小さくて済むことが挙げられる.一方,他方式では,同じ場所に複数ノードの追加が起こると,生成されるラベルのサイズは膨大になってしまう.提案したラベル付けの方式に対して,XML木のノードの追加や削除に対して,その文書順を保存するための方式を考案するとともに,ラベルサイズ・ラベル記憶コスト・ノード検索コストについて,よく知られている他方式として,DLN, ORDPATH, QED,および素数によるラベル付け方式との比較実験を行い,我々の手法が有効であることを示した.
|