高精度XML文書検索システムの問合せ処理高速化に関する研究

Research Project

Project/Area Number	16700103
Research Category	Grant-in-Aid for Young Scientists (B)
Allocation Type	Single-year Grants
Research Field	Media informatics/Database
Research Institution	Nara Institute of Science and Technology
Principal Investigator	波多野賢治奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
Project Period (FY)	2004 – 2005
Project Status	Completed (Fiscal Year 2005)
Budget Amount *help	¥3,600,000 (Direct Cost: ¥3,600,000) Fiscal Year 2005: ¥1,800,000 (Direct Cost: ¥1,800,000) Fiscal Year 2004: ¥1,800,000 (Direct Cost: ¥1,800,000)
Keywords	XML検索 / 高精度・高速検索 / リレーショナルデータベース / 計量統計学
Research Abstract	本研究では,XML文書に対し利用者が問合せキーワードを入力し,そのキーワードに合致するXML部分文書を得る検索のことを「XML検索」と呼んでいる.検索対象がXML文書ではなくその部分文書となっていることで,検索対象となる部分文書数が爆発的に増加するため,検索精度の低下だけではなく検索速度の低下もXML検索における問題点となっている.この問題の解決には,キーワード検索の特質を理解し,明らかに検索結果となりえない,すなわち検索の際に不要となるXML部分文書(以下,不要部分文書と呼ぶ)を検索対象から外し,検索対象部分文書数を削減することが重要だとされており,この不要部分文書の除去によって検索速度および検索精度の改善が期待されている. 従来から行われているこの種の研究では,不要部分文書の決定は人手によって行われてきた.例えば,<author>Kenji Hatano</author>のような部分文書は,ブーリアン検索では有用な検索結果になりえるが,キーワード検索の検索結果としては情報が不十分であるため,Kenji Hatanoが何のauthorなのかを理解できるようその上位の部分文書を検索対象とするといった具合である.しかし,このような作業を人手で行うのは重労働であるため,その作業の自動化が求められてきた.本年度の研究実績は,昨年度の研究成果である不要部分文書の自動決定するための統計量をリレーショナルデータベースに格納し,かつそのリレーショナルデータベースで検索処理ができるよう,問合せ変換器を構築したことである.また,不要部分文書の決定に統計量だけではなく不要部分文書だと明確なものはあらかじめリレーショナルデータベースに格納しない手順を追加した.その結果,本年度は検索対象XMLデータが昨年度と比較して約200MB増加したにも関わらず,検索速度,検索速度ともにほとんど変化しなかった.このように,本提案は実運用に耐えうる使用となっており,未来のWeb検索エンジン実現のための要素技術として,有用なものであるということができる. 今後の課題は,問合せ処理時の最適化処理によって更なる高速化が期待できるため,今年度利用した統計情報をどのように検索システム内に格納するかなど,既存のRDBを利用した問合せ最適化について考える予定である.

Report

(2 results)

2005 Annual Research Report
2004 Annual Research Report

Research Products
(8 results)

All 2006 2005 2004

All Journal Article (8 results)

[Journal Article] XML情報検索システムとその高速化に関する研究2006
- Author(s)
  藤本圭, 清水敏之, 波多野賢治, 鈴木優, 天笠俊之, 絹谷弘子, 吉川正俊
- Journal Title
  
  第17回データ工学ワークショップ(DEWS2006)論文集
- Related Report
  2005 Annual Research Report
[Journal Article] XML文書検索システムにおける文書内容の統計量を利用した検索対象部分文書の決定2006
- Author(s)
  波多野賢治, 絹谷弘子, 吉川正俊, 植村俊亮
- Journal Title
  
  電子情報通信学会論文誌 Vol.J89-D No.3
  
  Pages: 422-431
- Related Report
  2005 Annual Research Report
[Journal Article] Analyzing the Properties of XML Fragments Decomposed from the INEX Document Collection2005
- Author(s)
  K.Hatano, H.Kinutani, T.Amagasa, Y.Mori, M.Yoshikawa, S.Uemura
- Journal Title
  
  Advances in XML Information Retrieval LNCS Vol.3493
  
  Pages: 168-182
- Related Report
  2005 Annual Research Report
[Journal Article] XMLを用いた論文検索システム2005
- Author(s)
  藤本圭, 杉木健二, 清水敏之, 松原茂樹, 天笠俊之, 波多野賢治, 吉川正俊
- Journal Title
  
  ディジタル図書館 No.27 & 28
  
  Pages: 9-16
- Related Report
  2005 Annual Research Report
[Journal Article] 類似度計算の効率化によるXML検索の高速化について2005
- Author(s)
  森康弘, 吉川正俊, 波多野賢治
- Journal Title
  
  第16回データ工学ワークショップ(DEWS2005)論文集
- Related Report
  2004 Annual Research Report
[Journal Article] Analyzing the properties of XML fragments decomposed from the INEX document collection2005
- Author(s)
  K.Hatano, H.Kinutani, T.Amagasa, Y.Mori, M.Yoshikawa, S.Uemura
- Journal Title
  
  Proc.of the 3rd Workshop of the Initiative for the Evaluation of XML Retrieval (INEX)
- Related Report
  2004 Annual Research Report
[Journal Article] キーワードを利用したXML文書検索2004
- Author(s)
  絹谷弘子, 波多野賢治, 吉川正俊, 植村俊亮
- Journal Title
  
  情報処理学会論文誌:データベース第45巻SIG7(TOD22)号
  
  Pages: 255-273
- NAID
  110002712410
- Related Report
  2004 Annual Research Report
[Journal Article] キーワードに基づいた部分文書検索における解答部分文書が持つ性質の分析2004
- Author(s)
  波多野賢治, 絹谷弘子, 吉川正俊, 植村俊亮
- Journal Title
  
  電子情報通信学会技術研究報告 Vol.1041 No.345
  
  Pages: 31-36
- NAID
  110003204306
- Related Report
  2004 Annual Research Report

高精度XML文書検索システムの問合せ処理高速化に関する研究

Principal Investigator

波多野 賢治 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)

¥3,600,000 (Direct Cost: ¥3,600,000)

Report

Research Products

[Journal Article] XML情報検索システムとその高速化に関する研究2006

Author(s)

Journal Title

Related Report

[Journal Article] XML文書検索システムにおける文書内容の統計量を利用した検索対象部分文書の決定2006

Author(s)

Journal Title

Related Report

[Journal Article] Analyzing the Properties of XML Fragments Decomposed from the INEX Document Collection2005

Author(s)

Journal Title

Related Report

[Journal Article] XMLを用いた論文検索システム2005

Author(s)

Journal Title

Related Report

[Journal Article] 類似度計算の効率化によるXML検索の高速化について2005

Author(s)

Journal Title

Related Report

[Journal Article] Analyzing the properties of XML fragments decomposed from the INEX document collection2005

Author(s)

Journal Title

Related Report

[Journal Article] キーワードを利用したXML文書検索2004

Author(s)

Journal Title

NAID

Related Report

[Journal Article] キーワードに基づいた部分文書検索における解答部分文書が持つ性質の分析2004

Author(s)

Journal Title

NAID

Related Report

波多野賢治奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)