研究概要 |
本研究では,半構造データからデータベーススキーマを抽出する問題について考察を行った.ここで,データベーススキーマとはクラス集合,クラスとは(互いに類似した型をもつ)オブジェクト集合である.本研究では,半構造データから「各クラスの密度が与えられた閾値以上かつクラス数最小」という条件を満たすデータベーススキーマを抽出する最適化問題について考察し,以下の2つの結果を示した.ここで,クラス密度とはクラスの型とそれに属する各オブジェクトの型の類似度を表す尺度であり,クラス密度が大きいほどその類似度が高いことを表す. 1.スキーマ抽出問題の計算量 上記最適化問題の計算量について考察し,以下の2つの結果を示した.まず,同最適化問題に関する決定問題が強NP困難であることを示した.次に,P=NPでない限り,γ<3/2なるどのγに対しても同最適化問題を解く多項式時間γ-近似アルゴリズムが存在しないことを示した. 2.スキーマ抽出アルゴリズムの開発 上記結果から,厳密な最適解(データベーススキーマ)を効率良く抽出することは困難である.そこで,本研究では根付クラス(rooted class)というクラスを提案し,それを用いてデータベーススキーマを効率良く抽出する多項式時間アルゴリズムを構成した.根付クラスの利点は,オブジェクト間の上位型と下位型の関係を用いてクラスに属するオブジェクトの組合せを限定することにより,根付クラスの総数が入力データに関する多項式に低減されていることである.本アルゴリズムでは,まず,すべての根付クラスを求め,次に,それらクラスから(i)データベース上のすべてのオブジェクトを網羅しかつ(ii)クラス数が最小となるようなクラス集合を求めることにより,データベーススキーマを抽出している.
|