Research Abstract |
本研究では,XML文書に対し利用者が問合せキーワードを入力し,そのキーワードに合致するXML部分文書を得る検索のことを「XML検索」と呼んでいる.検索対象がXML文書ではなくその部分文書となっていることで,検索対象となる部分文書数が爆発的に増加するため,検索精度の低下だけではなく検索速度の低下もXML検索における問題点となっている.この問題の解決には,キーワード検索の特質を理解し,明らかに検索結果となりえない,すなわち検索の際に不要となるXML部分文書(以下,不要部分文書と呼ぶ)を検索対象から外し,検索対象部分文書数を削減することが重要だとされており,この不要部分文書の除去によって検索速度および検索精度の改善が期待されている. 従来から行われているこの種の研究では,不要部分文書の決定は人手によって行われてきた.例えば,<author>Kenji Hatano</author>のような部分文書は,ブーリアン検索では有用な検索結果になりえるが,キーワード検索の検索結果としては情報が不十分であるため,Kenji Hatanoが何のauthorなのかを理解できるようその上位の部分文書を検索対象とするといった具合である.しかし,このような作業を人手で行うのは重労働であるため,その作業の自動化が求められてきた.本年度の研究実績は,不要部分文書の決定を自動化するために,抽出されうる全てのXML部分文書を統計的に解析し,計量統計学の観点から不要部分文書を決定する手法を提案,そして既存のXML検索用テストコレクションを用いてその有効性を示したことにある.評価実験の結果,検索速度が3倍,そして検索精度(平均適合率)が3%向上したことが分かった.これまでのように人手で検索対象部分文書を決定するのではなく,計算機を用いて不要部分文書の決定が行えるため,今後,Web文書の部分検索のような大規模部分文書検索にも応用が可能となり,未来のWeb検索エンジン実現のための要素技術として,本年度の研究実績は非常に有用なものであるということができる.今後の課題は,問合せ処理時の最適化処理によって更なる高速化が期待できるため,今年度利用した統計情報をどのように検索システム内に格納するかなど,既存のRDBを利用した問合せ最適化について考える予定である.
|