• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

高精度XML文書検索システムの問合せ処理高速化に関する研究

研究課題

研究課題/領域番号 16700103
研究種目

若手研究(B)

配分区分補助金
研究分野 メディア情報学・データベース
研究機関奈良先端科学技術大学院大学

研究代表者

波多野 賢治  奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)

研究期間 (年度) 2004 – 2005
研究課題ステータス 完了 (2005年度)
配分額 *注記
3,600千円 (直接経費: 3,600千円)
2005年度: 1,800千円 (直接経費: 1,800千円)
2004年度: 1,800千円 (直接経費: 1,800千円)
キーワードXML検索 / 高精度・高速検索 / リレーショナルデータベース / 計量統計学
研究概要

本研究では,XML文書に対し利用者が問合せキーワードを入力し,そのキーワードに合致するXML部分文書を得る検索のことを「XML検索」と呼んでいる.検索対象がXML文書ではなくその部分文書となっていることで,検索対象となる部分文書数が爆発的に増加するため,検索精度の低下だけではなく検索速度の低下もXML検索における問題点となっている.この問題の解決には,キーワード検索の特質を理解し,明らかに検索結果となりえない,すなわち検索の際に不要となるXML部分文書(以下,不要部分文書と呼ぶ)を検索対象から外し,検索対象部分文書数を削減することが重要だとされており,この不要部分文書の除去によって検索速度および検索精度の改善が期待されている.
従来から行われているこの種の研究では,不要部分文書の決定は人手によって行われてきた.例えば,<author>Kenji Hatano</author>のような部分文書は,ブーリアン検索では有用な検索結果になりえるが,キーワード検索の検索結果としては情報が不十分であるため,Kenji Hatanoが何のauthorなのかを理解できるようその上位の部分文書を検索対象とするといった具合である.しかし,このような作業を人手で行うのは重労働であるため,その作業の自動化が求められてきた.本年度の研究実績は,昨年度の研究成果である不要部分文書の自動決定するための統計量をリレーショナルデータベースに格納し,かつそのリレーショナルデータベースで検索処理ができるよう,問合せ変換器を構築したことである.また,不要部分文書の決定に統計量だけではなく不要部分文書だと明確なものはあらかじめリレーショナルデータベースに格納しない手順を追加した.その結果,本年度は検索対象XMLデータが昨年度と比較して約200MB増加したにも関わらず,検索速度,検索速度ともにほとんど変化しなかった.このように,本提案は実運用に耐えうる使用となっており,未来のWeb検索エンジン実現のための要素技術として,有用なものであるということができる.
今後の課題は,問合せ処理時の最適化処理によって更なる高速化が期待できるため,今年度利用した統計情報をどのように検索システム内に格納するかなど,既存のRDBを利用した問合せ最適化について考える予定である.

報告書

(2件)
  • 2005 実績報告書
  • 2004 実績報告書
  • 研究成果

    (8件)

すべて 2006 2005 2004

すべて 雑誌論文 (8件)

  • [雑誌論文] XML情報検索システムとその高速化に関する研究2006

    • 著者名/発表者名
      藤本圭, 清水敏之, 波多野賢治, 鈴木優, 天笠俊之, 絹谷弘子, 吉川正俊
    • 雑誌名

      第17回データ工学ワークショップ(DEWS2006)論文集

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] XML文書検索システムにおける文書内容の統計量を利用した検索対象部分文書の決定2006

    • 著者名/発表者名
      波多野賢治, 絹谷弘子, 吉川正俊, 植村俊亮
    • 雑誌名

      電子情報通信学会論文誌 Vol.J89-D No.3

      ページ: 422-431

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Analyzing the Properties of XML Fragments Decomposed from the INEX Document Collection2005

    • 著者名/発表者名
      K.Hatano, H.Kinutani, T.Amagasa, Y.Mori, M.Yoshikawa, S.Uemura
    • 雑誌名

      Advances in XML Information Retrieval LNCS Vol.3493

      ページ: 168-182

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] XMLを用いた論文検索システム2005

    • 著者名/発表者名
      藤本圭, 杉木健二, 清水敏之, 松原茂樹, 天笠俊之, 波多野賢治, 吉川正俊
    • 雑誌名

      ディジタル図書館 No.27 & 28

      ページ: 9-16

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] 類似度計算の効率化によるXML検索の高速化について2005

    • 著者名/発表者名
      森 康弘, 吉川 正俊, 波多野 賢治
    • 雑誌名

      第16回データ工学ワークショップ(DEWS2005)論文集

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Analyzing the properties of XML fragments decomposed from the INEX document collection2005

    • 著者名/発表者名
      K.Hatano, H.Kinutani, T.Amagasa, Y.Mori, M.Yoshikawa, S.Uemura
    • 雑誌名

      Proc.of the 3rd Workshop of the Initiative for the Evaluation of XML Retrieval (INEX)

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] キーワードを利用したXML文書検索2004

    • 著者名/発表者名
      絹谷 弘子, 波多野 賢治, 吉川 正俊, 植村 俊亮
    • 雑誌名

      情報処理学会論文誌:データベース 第45巻SIG7(TOD22)号

      ページ: 255-273

    • NAID

      110002712410

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] キーワードに基づいた部分文書検索における解答部分文書が持つ性質の分析2004

    • 著者名/発表者名
      波多野 賢治, 絹谷 弘子, 吉川 正俊, 植村 俊亮
    • 雑誌名

      電子情報通信学会技術研究報告 Vol.1041 No.345

      ページ: 31-36

    • NAID

      110003204306

    • 関連する報告書
      2004 実績報告書

URL: 

公開日: 2004-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi