研究概要 |
Web検索エンジンの検索対象はWebページであり,システムがページから抽出した出現単語を基に転置ファイルを生成し,それを利用することで検索作業を行っている.Web検索エンジンはWebページの特長であるリンク構造を考慮して単語の重み付けを行っているため,Webページを検索するという点では有用であるが,検索対象をWebページとしている以上,基本的にはページに出現している単語に着目しているため,Webページ中に利用者が検索要求として利用したキーワードが含まれていれば,その検索要求に対するWebページの類似度が高くなり,結果的に検索結果として返されてしまう.つまり,利用者が検索結果を閲覧する際にWebページのどの部分が検索要求を満たしているのか非常にわかりにくく,さらに検索要求を満たす部分を改めて探さなければならないという問題点が存在する. そのような問題点を解決するために,本研究では二年間に渡りXML文書の持つ単語の統計量を利用して,検索結果から利用者に返される回答として相応しいXML部分文書を決定するアルゴリズムを提案し,そのアルゴリズムを実装した部分着目型XML情報検索システムの構築を行った.また,従来のTF-IDFによる単語の重み付けを改良し,構造化文書に相応しい新しい重み付け法の提案を行った. 本年度の研究成果には,XML文書から抽出されるXML部分文書のうち,統計的に安定している(特異でない)XML部分文書だけを索引付けしたところ,索引付けされたXML部分文書数が提案手法を採用しない場合に比べ約12%に削減され,それに伴い,索引生成時間が約5倍,検索時間が約3倍高速となったのに加え,平均適合率も3%改善される結果となった.以上の結果より,提案手法によって,検索システムの処理速度および検索精度の両方が改善されることが判明した.
|