2002 Fiscal Year Annual Research Report
部分着目型XML情報検索システムの開発とその利用に関する研究
Project/Area Number |
14780325
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
波多野 賢治 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
|
Keywords | 部分着目型検索システム / XML / 最適粒度決定 / 検索速度 |
Research Abstract |
現在,利用者が検索要求を行う対象としてよく利用するものはインターネット上の情報,すなわちHTML文書である.しかし,HTMLには以前から情報の発信やHTMLのアプリケーションでの利用に関して多くの問題点があり,それらの解決にはそれらの情報がXMLの仕様に従うように作成されることであると言われている.XMLを利用する利点は,XMLの各要素をデータとして扱えるため,XMLの各要素に意味付けを行うことが可能である点である.つまり,情報検索の研究分野においてはXMLの要素を単位とした部分着目型の文書検索が実現可能である.しかし,現在の情報検索システムの構築技術だけでは,この部分着目型のXML文書検索システムを構築することはできない. 部分着目型XML文書検索システムの構築に必要な技術は,XMLの構造および各要素に含まれているデータからXMLの部分的な特徴をいかに効果的に抽出するかである.それが克服できなければ,利用者が検索結果を閲覧する際に検索結果のどの部分が検索要求を満たしているのか非常にわかりにくく,また検索要求を満たす部分を探さなければならないという問題点を克服することはできない. 本研究は,このような問題点を克服するためにXML文書の持つ構造情報および単語の統計情報を利用して,検索結果としてシステムから返されるXML部分文書の粒度を決定するアルゴリズムを提案し,それを利用した部分着目型XML文書検索システムの提案を行った.通常,部分着目型の検索システムは検索速度が遅いという問題点があるが,提案したアルゴリズムを適用したことで検索対象となるXML部分文書数を削減しているため,検索速度はアルゴリズムを利用しない場合の25%の短縮に成功している.また,XML問合せ言語のように検索の際に利用者は文書構造の指定をする必要はなく,前述のアルゴリズムによって決定されたXML部分文書に対してキーワード検索を行うことができるため,利用者に対する利便性も高いという特長を持っている.
|
Research Products
(3 results)
-
[Publications] K.Hatano, H.Kinutani, M.Yoshikawa, S.Uemura: "Extraction of Partial XML Documents Using IR-based Structure and Content Analysis"Conceptual Modeling for New Information Systems Technologies. LNCS Vol.2465. 334-347 (2002)
-
[Publications] K.Hatano, H.Kinutani, M.Yoshikawa, S.Uemura: "Information Retrieval System for XML Documents"Proceedings of the 13^<th> International Conference on Database and Expert Systems Applications (DEXA 2002). LNCS Vol.2453. 758-767 (2002)
-
[Publications] K.Hatano, H.Kunutani, M.Yoshikawa, S.Uemura: "Determining the Unit of Retrieval Results for XML Documents"Proceedings of the First Workshop of the Initiative for the Evaluation of XML Retrieval (INEX). (in press). (2003)