研究概要 |
本研究で実用的なXML検索システムを作成するにあたって,情報検索システムの要件である高精度・高速な検索を満たしつつ,Web検索システムにおいて極めて頻繁に発生する文書の更新に対しても現実的なコストで索引の差分更新を行うことで実現させる,XML検索システムでは従来の文書検索システムのように検索結果として文書全体を提示するのではなく,文書のうちのユーザが求める部分のみ提示することを目指す.従って,実用的なXML検索システムを開発することで,検索システムを用いるユーザは検索に必要な時間を短縮させ,求める情報がどの部分に記述されているのかをユーザ自ら探す労力を軽減する.更に,近年モバイル端末やタブレット型PCからの情報検索の機会が増加しており,必要十分な情報のみを提示するXML情報検索はディスプレイサイズの小さな環境においても有効な検索技術となるため,今後重要な技術になることが期待される. 従来のXML情報検索システムでは文書の更新が発生することを想定していないため,本研究では従来のXML情報検索システムを拡張させて文書の更新機能を付与する.その際,文書の更新の発生に応じて高速に差分更新を可能な索引構造を提案し,文書の更新,すなわち文書の追加・削除・書換時における処理を定義した. また,更新が発生すれば可能な限り高速に更新を反映させるため,検索結果を提示する上で重要なデータのみを索引へ登録するためのフィルタを提案した.更に,検索システム運用初期のような,検索システムに蓄積されている文書数が少量の時点では,文書のスコアリングに用いる統計量のうち文書集合全体から算出される大域的重みは正確な統計量を得ることができない.従って,少数の文書からも正確な大域的重みを推定する手法を提案した. これらにより,従来の高精度・高速なXML情報検索システムと比較して遜色のない性能を維持しつつ,高速に文書の更新を反映させることに成功した.
|
今後の研究の推進方策 |
今後の研究方針として,当初の研究計画の通り,更新処理の並列化及び分散化を行う.なお,その際,CPUとGPUの両方の演算装置を併用することで高速化を目指す.
|