2001 Fiscal Year Annual Research Report
半構造データからのスキーマ情報抽出アルゴリズムの開発
Project/Area Number |
12780317
|
Research Institution | Okayama Prefectural University |
Principal Investigator |
鈴木 伸崇 岡山県立大学, 情報工学部, 助手 (60305779)
|
Keywords | 半構造データ / スキーマ抽出問題 / アルゴリズム / NP困難性 |
Research Abstract |
本研究では,半構造データから「各クラスの密度が与えられた閾値以上,かつ,クラス数が最小である」という条件を満たすデータベーススキーマ(以下,スキーマ)を抽出する最適化問題について考察している.ここで,クラス密度とはクラスの型とそれに属する各オブジェクトの型の類似度を表す尺度であり,クラス密度が大きいほどその類似度が高いことを表す.本年度の主な研究実績は以下の通りである. 1.スキーマ抽出問題の計算量 申請者らは,これまでに上記最適化問題が強NP困難であることを示している.本年度は,同最適化問題に関して,「各抽出クラスの型が最適である(型を表す属性系列が最短である)」という条件を加えた場合の計算量について考察した.そして,この場合,同問題が強NP困難でありかつΔ_2Pに属することを示した. 2.スキーマ抽出アルゴリズムの改良 上記の結果から,厳密な最適解(スキーマ)を効率良く抽出することは困難である.そこで,昨年度,申請者らは根付クラス(rooted class)というクラスを提案し,それを用いてスキーマを効率良く抽出する多項式時間アルゴリズムを構成した.本年度は,この根付クラスをより一般的な構造をもつクラス(bounded class)に拡張することにより,よりサイズ(クラス数)の小さいスキーマが抽出できるようにアルゴリズムの改良を行った.具体的には,根付クラスは「そのクラスに属するどの基本クラスも,一つのクラス(そのクラスの根)の下位クラスである」という制限をもつが,今回拡張されたクラスではそのような根に相当するクラスを複数もつことが許されている.そのような拡張を行った場合でも,スキーマ抽出アルゴリズムが多項式時間で実行時間可能であることを示した.
|
-
[Publications] Nobutaka Suzuki: "On Extracting a Database Schema from Semistructured Documents"Proceedings of the 5th World Multi-Conference on Systemics, Cybernetics and Informatics (SCI2001). IXV. 220-225 (2001)
-
[Publications] Nobutaka Suzuki: "Complexity and a Method of Extracting a Database Schema over Semistructured Documents"IEICE Transactions on Information and Systems. (採録決定). (2002)