本研究は、データベースの設計や構築に必要なデーターの論理構造をサンプルデータから抽出することを目的としている。本年度は、文書画像データからデータベースを構築する際に有効な文書のレイアウト構造の表現方式およびデータベース設計に有効な関数従属性性の学習方法に関する研究を行なった。 文書画像データからのデータベース構築では、(1)画像を適切な論理単位に分割し、(2)各ブロックを分類し、(3)OCRを用いてテキスト領域をコード化し、(4)データベースの構造(スキーマ)に合わせてデータを構造化する必要がある。構造化処理では、データベースのスキーマと文書のレイアウトの構造をうまくすり合わせることが重要になる。そこで、本研究ではデータベースのスキーマと画像文書のレイアウト構造を同時に表現する方法である行列文法を考案した。行列文法は、正則文法を平面上に配置された終端記号列に対する規則を記述できるように拡張したものである。さらに分割、分類された文書画像を行列文法を用いて効率的に解析するためのアルゴリズムを示した。 関数従属性は、関係データベースの最も基本的な従属性であり、関係データベース設計を始め、各種のデータベース処理を考察するうえで重要な役割を果たす。本研究では、PAC(Probably Approximately Correct)学習モデルを応用し、データベースデ近似的に成り立つ関数従属性をその部分データから学習する方法について検討した。本研究では、まず、学習アルゴリズムによって得られる関数従属性の近似度とサンプル数について考察した。そして、あるデータベースに対する関数従属性の誤差を、その関数従属性に反するタプルの数とデータベースに存在するタプルの総数との比とした場合、誤差ε以下の関数従属性を1-δ以上の確率で抽出するために必要なサンプル数は、高々(〔.SU.〕)となることを示した。
|