研究分担者 |
松原 茂樹 名古屋大学, 情報連携基盤センター, 助教授 (20303589)
天笠 俊之 筑波大学, システム情報工学研究科, 講師 (70314531)
波多野 賢治 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
絹谷 弘子 お茶の水女子大学, 総合情報処理センター, 研究支援推進員 (00376998)
|
研究概要 |
(1)XMLの全文および構造検索のためのB+木上の索引 XML文書の全文検索および構造検索の両方を高速化することを狙いとするXICSと呼ぶ索引を開発した.本索引は実用上の観点からB+木を利用している.XML木の構造情報を表すために,各ノードに識別子を付与する.この識別子は,根ノードからの経路情報を表す整数値を持つ.XICSは,COB木(COntent B+木)とSTB木(STructure B+木)という種類の索引から成る.COB木の探索キーはXML文書中のテキスト片とそれを含む葉ノードの識別子から成る対である.また,STB木の探索キーはノード識別子である.STB木とCOB木は,それぞれ,問合せ中の構造に関する条件とテキストに関する条件を用いてノードの選別を行う.XICSをGiST上に実装し、検索性能が問合せによっては従来手法に比ベ100倍以上向上することを確認した. (2)高精度検索を実現しつつ,かつ高速検索をも実現する問合せ最適化法 XML検索エンジンのためのテストコレクションの構築のために,Initiative for the Evaluation of XML Retrieval(INEX)国際プロジェクトに参加し,テストコレクション構築に協力した.また,我々が開発中したXMLデータベースシステムXRel上にXML情報検索システムを実装した.XML部分文書の中には問合せ結果として適切ではないものが存在するため,システム内にすべてのXML部分文書を保持すると,検索の精度が劣化し,問合せ処理時間が長くなる.この問題を解決するために,文書指向XML部分文書を選別するために,ピリオド率,異なり語の数,実験に基づくヒューリスティックという三種類の尺度を導入した.性能評価実験を行い,本手法を適用しキーワード問合せの答から不適切なデータ指向XML部分文書を削除することにより,システムの精度と速度が改善されることを確認した.
|