研究概要 |
XML文書に対し利用者が問合せキーワードを入力し, そのキーワードに合致するXML部分文書を得る検索は¢XML情報検索」と呼ばれている. 検索対象が文書ではなくその部分文書となっていることで, 検索対象となる部分文書数が爆発的に増加するため, 検索精度の低下が問題となっているが, この技術を利用することで利用者が効率よく必要なデータにアクセスすることができるようになるという理由から, 「XML情報検索」は期待されている. 効率よく必要なデータにアクセスするためには, アクセスするためのKWICインデックスが必要である. 従来のKWICインデックスは1970年代に生まれた技術であり, 21世紀になった今もその基本は変化していない. そこで今年度はその基本技術にXML情報検索技術を適用するために, 文書構造を用いた索引語の重みづけを利用した改良型KWICインデックスを作成した. XML情報検索技術におけるインデックスは検索対象となるXML文書が木構造であるため, 従来型KWICインデックスとはデータ構造が異なるというミスマッチが生じていたが, データ構造の変更でこのミスマッチは解消できた. しかし, 肌情報検索技術で計算された索引語の重みをKWICインデックスに単純に適用しただけでは, 効率的なデータアクセスができる反面, その精度に問題が生じることが判明した. 次年度はこの問題点の解決を早急に行う予定である.
|