• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2002 Fiscal Year Annual Research Report

半構造XMLデータからのスキーマ抽出及び変換アルゴリズムの開発

Research Project

Project/Area Number 14780330
Research InstitutionOkayama Prefectural University

Principal Investigator

鈴木 伸崇  岡山県立大学, 情報工学部, 助手 (60305779)

KeywordsXML / データ変換 / スキーマ抽出 / アルゴリズム
Research Abstract

本研究のスキーマ抽出は,(1)構造の類似したXMLデータ同士を同一のクラスに分類し,(2)同一のクラスに属するデータを同じ構造に変換する,という手順で行う.このような分類・変換を行うため,以下のようにして(構造の異なる)2つのXMLデータを共通の構造をもつXMLデータに変換するアルゴリズムを開発した(このようなアルゴリズムが得られれば,スキーマ抽出はクラスタリング的手法を用いて行うことができる).
1.変換の定式化:変換アルゴリズム開発のため,次に示す定式化を行った.まず,XMLデータを要素を頂点,要素間の親子関係を辺とする順序木とみなし,順序木に対する3種の操作(頂点の追加,頂点の削除,ラベルの変更)を定義した(各操作にはコストが付与される).次に,変換コストを,2つのXMLデータを共通の構造をもつXMLデータに変換するために要する上記操作のコストの和と定義した.
2.変換アルゴリズムの開発:上記定式化の下で,2つのXMLデータを共通の構造をもつXMLデータに変換する多項式時間アルゴリズムを構成した.なお,XMLデータの変換においては,要素間の順序関係は変換後も維持されることが望ましい.そこで,本研究では,次の条件を満たす,2つのXMLデータを共通の構造をもつXMLデータに変換するアルゴリズムを開発した.
(1)(a)頂点間の先祖-子孫の関係および(b)頂点間の兄弟の順序関係は,(その頂点が削除されない限り)変換後も維持される.
(2)(1)の条件の下で,変換コストが最小である.
更に,入力データ(2つの順序木)が共にサイズnの平衡順序木である場合,このアルゴリズムの実行時間がO(n^2・log^2n)であることを示した.

  • Research Products

    (2 results)

All Other

All Publications (2 results)

  • [Publications] Nobutaka Suzuki: "A Structural Merging Algorithm for XML Documents"Proceedings of IADIS International Conference WWW/Internet 2002. 699-703 (2002)

  • [Publications] Nobutaka Suzuki: "A Structural Merging Algorithm for Hierarchically Structured Documents"Technical Report of IEICE (COMP). COMP2002-32. 17-24 (2002)

URL: 

Published: 2004-04-07   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi