本研究では、データベースの論理構造を記述するものの1つとして関数従属性を考え、サンプルデータから関数従属性を学習するためのアルゴリズムについて検討した。そして、学習過程である関数従属性がサンプルデータにおいて成り立つかどうかをテストする回数が極小および極大な関数従属性の数に対して多項式時間で学習できることを示した。また、サンプル数と学習によって得られる関数従属性の精度に関する考察を行ない、データベース中に含まれるタプル数の平方根程度のサンプルをとれば精度の高い学習が行なえることを示した。 また、応用研究として、文書画像データからデータベースを構築する際に有効な文書のレイアウト構造の表現方式について検討を行ない、雑誌目次の画像データからデータベースを自動構築するための実験的なシステムを構築した。このシステムは、目次の画像データに対して、画像を適切な論理単位に分割し、各ブロックを分類し、データベースの構造(スキーマ)に合わせてデータを構造化する処理を施しデータベースの構築を行なう。学術雑誌の目次に本手法を適用したところ、高い認識率を得られた。ブロックの分類および構造化では、各雑誌に応じた分類および構造変換規則が必要になる。本研究の主題は、これらの処理に必要な規則をサンプルデータから自動的に構築することである。現在のところ、分類規則はサンプルデータから自動的に抽出できるようになっているが、構造化で用いられる構造解析および変換規則の学習は将来の課題として残った。
|