研究概要 |
XML文書に対し利用者が問合せキーワードを入力し,そのキーワードに合致するXML部分文書を得る検索は「XML情報検索」と呼ばれている.検索対象が文書ではなくその部分文書となっていることで,検索対象となる部分文書数が爆発的に増加するため,一般的に検索精度の低下が問題となる.しかし,この技術を利用することで利用者が効率よくまた効果的に必要なデータにアクセスすることができるようになるという理由から,「XML情報検索」に関する技術は一般ユーザから期待されている. 効果的に必要なデータにアクセスするためにはインデックスが必要となるが,このインデックスをXMLからどのように生成するのかについては,長年議論されてきた.現在,「XML情報検索」で用いられている検索モデルはBM25EもしくはLanguage Modelをベースにしたものが多いが,これらは検索対象となるXML文書群から抽出できる,索引語の数,XPathの数といった単純統計量が多い.しかしながら,前年度判明した問題点の考察から,今年度は単純な統計情報でカバーできない要件として,1)部分文書構成のための最適テキスト要素サイズ'および2)部分文書構成のための結合力,を定義し,これらの要件を満たすXML部分文書を再構成し,検索結果とした場合,従来の単純統計量を利用した手法に比べ46%もの精度向上を図ることができた(INEX test collection使用時).これにより,一般ユーザはさらに効果的に必要データにアクセスできるようになった.
|