データベースからの構造知識の抽出に関する研究

Research Project

Project/Area Number	04229225
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Research Institution	National Institute of Informatics
Principal Investigator	高須淳宏学術情報センター, 研究開発部, 助手 (90216648)
Co-Investigator(Kenkyū-buntansha)	桂英史学術情報センター, 研究開発部, 助手 (60204450)
Project Period (FY)	1992
Project Status	Completed (Fiscal Year 1992)
Budget Amount *help	¥2,000,000 (Direct Cost: ¥2,000,000) Fiscal Year 1992: ¥2,000,000 (Direct Cost: ¥2,000,000)
Keywords	機械学習 / 関係データベース / 関数従属性 / 文書処理
Research Abstract	本研究は、データベースの設計や構築に必要なデーターの論理構造をサンプルデータから抽出することを目的としている。本年度は、文書画像データからデータベースを構築する際に有効な文書のレイアウト構造の表現方式およびデータベース設計に有効な関数従属性性の学習方法に関する研究を行なった。文書画像データからのデータベース構築では、(1)画像を適切な論理単位に分割し、(2)各ブロックを分類し、(3)OCRを用いてテキスト領域をコード化し、(4)データベースの構造(スキーマ)に合わせてデータを構造化する必要がある。構造化処理では、データベースのスキーマと文書のレイアウトの構造をうまくすり合わせることが重要になる。そこで、本研究ではデータベースのスキーマと画像文書のレイアウト構造を同時に表現する方法である行列文法を考案した。行列文法は、正則文法を平面上に配置された終端記号列に対する規則を記述できるように拡張したものである。さらに分割、分類された文書画像を行列文法を用いて効率的に解析するためのアルゴリズムを示した。関数従属性は、関係データベースの最も基本的な従属性であり、関係データベース設計を始め、各種のデータベース処理を考察するうえで重要な役割を果たす。本研究では、PAC(Probably Approximately Correct)学習モデルを応用し、データベースデ近似的に成り立つ関数従属性をその部分データから学習する方法について検討した。本研究では、まず、学習アルゴリズムによって得られる関数従属性の近似度とサンプル数について考察した。そして、あるデータベースに対する関数従属性の誤差を、その関数従属性に反するタプルの数とデータベースに存在するタプルの総数との比とした場合、誤差ε以下の関数従属性を1-δ以上の確率で抽出するために必要なサンプル数は、高々(〔.SU.〕)となることを示した。

Report

(1 results)

1992 Annual Research Report

Research Products
(4 results)

All Other

All Publications (4 results)

[Publications] Atsuhiro Takasu: "A Minimum Path Decompositoin of the Hasse Diagram fror Testing the Consistency of Functional Dependencies" IEICE Transaction on Information Systems. 2. 299-301 (1993)
- Related Report
  1992 Annual Research Report
[Publications] Eishi Katsura: "Design Consideration for Capturing Electronic Library" Information Services and Use. 12. 99-112 (1992)
- Related Report
  1992 Annual Research Report
[Publications] Atsuhiro Takasu: "A Syntactical Approach to the Database Construction Metlod form images" Proceedings of IAPR Workshop on Machine Vision Applications. 295-298 (1992)
- Related Report
  1992 Annual Research Report
[Publications] Tatsuya Akutsu: "On PAC Learnability of Functional Dependencies" Procedings of Workshop on Algovithmic Leatning Theory. 229-239 (1992)
- Related Report
  1992 Annual Research Report

データベースからの構造知識の抽出に関する研究

Principal Investigator

高須 淳宏 学術情報センター, 研究開発部, 助手 (90216648)

¥2,000,000 (Direct Cost: ¥2,000,000)

Report

Research Products

[Publications] Atsuhiro Takasu: "A Minimum Path Decompositoin of the Hasse Diagram fror Testing the Consistency of Functional Dependencies" IEICE Transaction on Information Systems. 2. 299-301 (1993)

Related Report

[Publications] Eishi Katsura: "Design Consideration for Capturing Electronic Library" Information Services and Use. 12. 99-112 (1992)

Related Report

[Publications] Atsuhiro Takasu: "A Syntactical Approach to the Database Construction Metlod form images" Proceedings of IAPR Workshop on Machine Vision Applications. 295-298 (1992)

Related Report

[Publications] Tatsuya Akutsu: "On PAC Learnability of Functional Dependencies" Procedings of Workshop on Algovithmic Leatning Theory. 229-239 (1992)

Related Report

高須淳宏学術情報センター, 研究開発部, 助手 (90216648)