• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2003 年度 実績報告書

部分着目型XML情報検索システムの開発とその利用に関する研究

研究課題

研究課題/領域番号 14780325
研究機関奈良先端科学技術大学院大学

研究代表者

波多野 賢治  奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)

キーワード部分着目型検索システム / XML / 統計量解析 / 部分文書粒度決定 / パフォーマンス / 検索精度
研究概要

Web検索エンジンの検索対象はWebページであり,システムがページから抽出した出現単語を基に転置ファイルを生成し,それを利用することで検索作業を行っている.Web検索エンジンはWebページの特長であるリンク構造を考慮して単語の重み付けを行っているため,Webページを検索するという点では有用であるが,検索対象をWebページとしている以上,基本的にはページに出現している単語に着目しているため,Webページ中に利用者が検索要求として利用したキーワードが含まれていれば,その検索要求に対するWebページの類似度が高くなり,結果的に検索結果として返されてしまう.つまり,利用者が検索結果を閲覧する際にWebページのどの部分が検索要求を満たしているのか非常にわかりにくく,さらに検索要求を満たす部分を改めて探さなければならないという問題点が存在する.
そのような問題点を解決するために,本研究では二年間に渡りXML文書の持つ単語の統計量を利用して,検索結果から利用者に返される回答として相応しいXML部分文書を決定するアルゴリズムを提案し,そのアルゴリズムを実装した部分着目型XML情報検索システムの構築を行った.また,従来のTF-IDFによる単語の重み付けを改良し,構造化文書に相応しい新しい重み付け法の提案を行った.
本年度の研究成果には,XML文書から抽出されるXML部分文書のうち,統計的に安定している(特異でない)XML部分文書だけを索引付けしたところ,索引付けされたXML部分文書数が提案手法を採用しない場合に比べ約12%に削減され,それに伴い,索引生成時間が約5倍,検索時間が約3倍高速となったのに加え,平均適合率も3%改善される結果となった.以上の結果より,提案手法によって,検索システムの処理速度および検索精度の両方が改善されることが判明した.

  • 研究成果

    (4件)

すべて その他

すべて 文献書誌 (4件)

  • [文献書誌] 波多野賢治, 絹谷弘子, 吉川正俊, 植村俊亮: "キーワードを利用したXML文書検索のための検索結果粒度決定法"日本データベース学会Letters. Vol.2, No.1. 123-126 (2003)

  • [文献書誌] Kazunari Sugiyama et al.: "Refinement of TF-IDF Schemes for Web Pages using their Hyperlinked Neighboring Pages"Proceedings of the 14th Conference on Hypertext and Hypermedia (HT'03). 198-207 (2003)

  • [文献書誌] Kenji Hatano et al.: "An Evaluation of INEX 2003 Relevance Assessments"INEX 2003 Workshop Proceedings. 25-32 (2003)

  • [文献書誌] 杉山一成, 波多野賢治, 吉川正俊, 植村俊亮: "ハイバーリンクで結ばれた隣接ページの内容に基づくWebページのためのTF-IDF法の改良"電子情報通信学会論文誌. Vol.J87-D-I No.2. 113-125 (2004)

URL: 

公開日: 2005-04-18   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi