2002 Fiscal Year Annual Research Report

半構造XMLデータからのスキーマ抽出及び変換アルゴリズムの開発

Research Project

Project/Area Number	14780330
Research Institution	Okayama Prefectural University
Principal Investigator	鈴木伸崇岡山県立大学, 情報工学部, 助手 (60305779)
Keywords	XML / データ変換 / スキーマ抽出 / アルゴリズム
Research Abstract	本研究のスキーマ抽出は,(1)構造の類似したXMLデータ同士を同一のクラスに分類し,(2)同一のクラスに属するデータを同じ構造に変換する,という手順で行う.このような分類・変換を行うため,以下のようにして(構造の異なる)2つのXMLデータを共通の構造をもつXMLデータに変換するアルゴリズムを開発した(このようなアルゴリズムが得られれば,スキーマ抽出はクラスタリング的手法を用いて行うことができる). 1.変換の定式化:変換アルゴリズム開発のため,次に示す定式化を行った.まず,XMLデータを要素を頂点,要素間の親子関係を辺とする順序木とみなし,順序木に対する3種の操作(頂点の追加,頂点の削除,ラベルの変更)を定義した(各操作にはコストが付与される).次に,変換コストを,2つのXMLデータを共通の構造をもつXMLデータに変換するために要する上記操作のコストの和と定義した. 2.変換アルゴリズムの開発:上記定式化の下で,2つのXMLデータを共通の構造をもつXMLデータに変換する多項式時間アルゴリズムを構成した.なお,XMLデータの変換においては,要素間の順序関係は変換後も維持されることが望ましい.そこで,本研究では,次の条件を満たす,2つのXMLデータを共通の構造をもつXMLデータに変換するアルゴリズムを開発した. (1)(a)頂点間の先祖-子孫の関係および(b)頂点間の兄弟の順序関係は,(その頂点が削除されない限り)変換後も維持される. (2)(1)の条件の下で,変換コストが最小である. 更に,入力データ(2つの順序木)が共にサイズnの平衡順序木である場合,このアルゴリズムの実行時間がO(n^2・log^2n)であることを示した.

Research Products
(2 results)

All Publications (2 results)

[Publications] Nobutaka Suzuki: "A Structural Merging Algorithm for XML Documents"Proceedings of IADIS International Conference WWW/Internet 2002. 699-703 (2002)
[Publications] Nobutaka Suzuki: "A Structural Merging Algorithm for Hierarchically Structured Documents"Technical Report of IEICE (COMP). COMP2002-32. 17-24 (2002)