Research Abstract |
本研究では,XML文書に対し利用者が問合せキーワードを入力し,そのキーワードに合致するXML部分文書を得る検索のことを「XML検索」と呼んでいる.検索対象がXML文書ではなくその部分文書となっていることで,検索対象となる部分文書数が爆発的に増加するため,検索精度の低下だけではなく検索速度の低下もXML検索における問題点となっている.この問題の解決には,キーワード検索の特質を理解し,明らかに検索結果となりえない,すなわち検索の際に不要となるXML部分文書(以下,不要部分文書と呼ぶ)を検索対象から外し,検索対象部分文書数を削減することが重要だとされており,この不要部分文書の除去によって検索速度および検索精度の改善が期待されている. 従来から行われているこの種の研究では,不要部分文書の決定は人手によって行われてきた.例えば,<author>Kenji Hatano</author>のような部分文書は,ブーリアン検索では有用な検索結果になりえるが,キーワード検索の検索結果としては情報が不十分であるため,Kenji Hatanoが何のauthorなのかを理解できるようその上位の部分文書を検索対象とするといった具合である.しかし,このような作業を人手で行うのは重労働であるため,その作業の自動化が求められてきた.本年度の研究実績は,昨年度の研究成果である不要部分文書の自動決定するための統計量をリレーショナルデータベースに格納し,かつそのリレーショナルデータベースで検索処理ができるよう,問合せ変換器を構築したことである.また,不要部分文書の決定に統計量だけではなく不要部分文書だと明確なものはあらかじめリレーショナルデータベースに格納しない手順を追加した.その結果,本年度は検索対象XMLデータが昨年度と比較して約200MB増加したにも関わらず,検索速度,検索速度ともにほとんど変化しなかった.このように,本提案は実運用に耐えうる使用となっており,未来のWeb検索エンジン実現のための要素技術として,有用なものであるということができる. 今後の課題は,問合せ処理時の最適化処理によって更なる高速化が期待できるため,今年度利用した統計情報をどのように検索システム内に格納するかなど,既存のRDBを利用した問合せ最適化について考える予定である.
|