半構造データからのスキーマ情報抽出アルゴリズムの開発

Research Project

Project/Area Number	12780317
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	情報システム学(含情報図書館学)
Research Institution	Okayama Prefectural University
Principal Investigator	鈴木伸崇岡山県立大学, 情報工学部, 助手 (60305779)
Project Period (FY)	2000 – 2001
Project Status	Completed (Fiscal Year 2001)
Budget Amount *help	¥2,400,000 (Direct Cost: ¥2,400,000) Fiscal Year 2001: ¥500,000 (Direct Cost: ¥500,000) Fiscal Year 2000: ¥1,900,000 (Direct Cost: ¥1,900,000)
Keywords	半構造データ / スキーマ抽出問題 / アルゴリズム / NP困難性
Research Abstract	本研究では,半構造データから「各クラスの密度が与えられた閾値以上,かつ,クラス数が最小である」という条件を満たすデータベーススキーマ(以下,スキーマ)を抽出する最適化問題について考察している.ここで,クラス密度とはクラスの型とそれに属する各オブジェクトの型の類似度を表す尺度であり,クラス密度が大きいほどその類似度が高いことを表す.本年度の主な研究実績は以下の通りである. 1.スキーマ抽出問題の計算量申請者らは,これまでに上記最適化問題が強NP困難であることを示している.本年度は,同最適化問題に関して,「各抽出クラスの型が最適である(型を表す属性系列が最短である)」という条件を加えた場合の計算量について考察した.そして,この場合,同問題が強NP困難でありかつΔ_2Pに属することを示した. 2.スキーマ抽出アルゴリズムの改良上記の結果から,厳密な最適解(スキーマ)を効率良く抽出することは困難である.そこで,昨年度,申請者らは根付クラス(rooted class)というクラスを提案し,それを用いてスキーマを効率良く抽出する多項式時間アルゴリズムを構成した.本年度は,この根付クラスをより一般的な構造をもつクラス(bounded class)に拡張することにより,よりサイズ(クラス数)の小さいスキーマが抽出できるようにアルゴリズムの改良を行った.具体的には,根付クラスは「そのクラスに属するどの基本クラスも,一つのクラス(そのクラスの根)の下位クラスである」という制限をもつが,今回拡張されたクラスではそのような根に相当するクラスを複数もつことが許されている.そのような拡張を行った場合でも,スキーマ抽出アルゴリズムが多項式時間で実行時間可能であることを示した.

Report

(2 results)

2001 Annual Research Report
2000 Annual Research Report

Research Products
(4 results)

All Other

All Publications (4 results)

[Publications] Nobutaka Suzuki: "On Extracting a Database Schema from Semistructured Documents"Proceedings of the 5th World Multi-Conference on Systemics, Cybernetics and Informatics (SCI2001). IXV. 220-225 (2001)
- Related Report
  2001 Annual Research Report
[Publications] Nobutaka Suzuki: "Complexity and a Method of Extracting a Database Schema over Semistructured Documents"IEICE Transactions on Information and Systems. (採録決定). (2002)
- Related Report
  2001 Annual Research Report
[Publications] Nobutaka Suzuki: "Complexity of Extracting Database Schema from Semistructured Documents"Technical Report of IEICE (COMP). 100・705. 89-96 (2001)
- Related Report
  2000 Annual Research Report
[Publications] Nobutaka Suzuki: "On Extracting a Database Schema from Semistructured Documents(採録決定)"Proceedings of the 5th World Multi-Conference on Systemics, Cybernetics and Informatics. (2001)
- Related Report
  2000 Annual Research Report

半構造データからのスキーマ情報抽出アルゴリズムの開発

Principal Investigator

鈴木 伸崇 岡山県立大学, 情報工学部, 助手 (60305779)

¥2,400,000 (Direct Cost: ¥2,400,000)

Report

Research Products

[Publications] Nobutaka Suzuki: "On Extracting a Database Schema from Semistructured Documents"Proceedings of the 5th World Multi-Conference on Systemics, Cybernetics and Informatics (SCI2001). IXV. 220-225 (2001)

Related Report

[Publications] Nobutaka Suzuki: "Complexity and a Method of Extracting a Database Schema over Semistructured Documents"IEICE Transactions on Information and Systems. (採録決定). (2002)

Related Report

[Publications] Nobutaka Suzuki: "Complexity of Extracting Database Schema from Semistructured Documents"Technical Report of IEICE (COMP). 100・705. 89-96 (2001)

Related Report

[Publications] Nobutaka Suzuki: "On Extracting a Database Schema from Semistructured Documents(採録決定)"Proceedings of the 5th World Multi-Conference on Systemics, Cybernetics and Informatics. (2001)

Related Report

鈴木伸崇岡山県立大学, 情報工学部, 助手 (60305779)