2000 Fiscal Year Annual Research Report

半構造データからのスキーマ情報抽出アルゴリズムの開発

Research Project

Project/Area Number	12780317
Research Institution	Okayama Prefectural University
Principal Investigator	鈴木伸崇岡山県立大学, 情報工学部, 助手 (60305779)
Keywords	半構造データ / スキーマ抽出問題 / NP困難性
Research Abstract	本研究では,半構造データからデータベーススキーマを抽出する問題について考察を行った.ここで,データベーススキーマとはクラス集合,クラスとは(互いに類似した型をもつ)オブジェクト集合である.本研究では,半構造データから「各クラスの密度が与えられた閾値以上かつクラス数最小」という条件を満たすデータベーススキーマを抽出する最適化問題について考察し,以下の2つの結果を示した.ここで,クラス密度とはクラスの型とそれに属する各オブジェクトの型の類似度を表す尺度であり,クラス密度が大きいほどその類似度が高いことを表す. 1.スキーマ抽出問題の計算量上記最適化問題の計算量について考察し,以下の2つの結果を示した.まず,同最適化問題に関する決定問題が強NP困難であることを示した.次に,P=NPでない限り,γ<3/2なるどのγに対しても同最適化問題を解く多項式時間γ-近似アルゴリズムが存在しないことを示した. 2.スキーマ抽出アルゴリズムの開発上記結果から,厳密な最適解(データベーススキーマ)を効率良く抽出することは困難である.そこで,本研究では根付クラス(rooted class)というクラスを提案し,それを用いてデータベーススキーマを効率良く抽出する多項式時間アルゴリズムを構成した.根付クラスの利点は,オブジェクト間の上位型と下位型の関係を用いてクラスに属するオブジェクトの組合せを限定することにより,根付クラスの総数が入力データに関する多項式に低減されていることである.本アルゴリズムでは,まず,すべての根付クラスを求め,次に,それらクラスから(i)データベース上のすべてのオブジェクトを網羅しかつ(ii)クラス数が最小となるようなクラス集合を求めることにより,データベーススキーマを抽出している.

Research Products
(2 results)

All Publications (2 results)

[Publications] Nobutaka Suzuki: "Complexity of Extracting Database Schema from Semistructured Documents"Technical Report of IEICE (COMP). 100・705. 89-96 (2001)
[Publications] Nobutaka Suzuki: "On Extracting a Database Schema from Semistructured Documents(採録決定)"Proceedings of the 5th World Multi-Conference on Systemics, Cybernetics and Informatics. (2001)