研究課題/領域番号 |
04229225
|
研究種目 |
重点領域研究
|
配分区分 | 補助金 |
研究機関 | 学術情報センター |
研究代表者 |
高須 淳宏 学術情報センター, 研究開発部, 助手 (90216648)
|
研究分担者 |
桂 英史 学術情報センター, 研究開発部, 助手 (60204450)
|
研究期間 (年度) |
1992
|
研究課題ステータス |
完了 (1992年度)
|
配分額 *注記 |
2,000千円 (直接経費: 2,000千円)
1992年度: 2,000千円 (直接経費: 2,000千円)
|
キーワード | 機械学習 / 関係データベース / 関数従属性 / 文書処理 |
研究概要 |
本研究は、データベースの設計や構築に必要なデーターの論理構造をサンプルデータから抽出することを目的としている。本年度は、文書画像データからデータベースを構築する際に有効な文書のレイアウト構造の表現方式およびデータベース設計に有効な関数従属性性の学習方法に関する研究を行なった。 文書画像データからのデータベース構築では、(1)画像を適切な論理単位に分割し、(2)各ブロックを分類し、(3)OCRを用いてテキスト領域をコード化し、(4)データベースの構造(スキーマ)に合わせてデータを構造化する必要がある。構造化処理では、データベースのスキーマと文書のレイアウトの構造をうまくすり合わせることが重要になる。そこで、本研究ではデータベースのスキーマと画像文書のレイアウト構造を同時に表現する方法である行列文法を考案した。行列文法は、正則文法を平面上に配置された終端記号列に対する規則を記述できるように拡張したものである。さらに分割、分類された文書画像を行列文法を用いて効率的に解析するためのアルゴリズムを示した。 関数従属性は、関係データベースの最も基本的な従属性であり、関係データベース設計を始め、各種のデータベース処理を考察するうえで重要な役割を果たす。本研究では、PAC(Probably Approximately Correct)学習モデルを応用し、データベースデ近似的に成り立つ関数従属性をその部分データから学習する方法について検討した。本研究では、まず、学習アルゴリズムによって得られる関数従属性の近似度とサンプル数について考察した。そして、あるデータベースに対する関数従属性の誤差を、その関数従属性に反するタプルの数とデータベースに存在するタプルの総数との比とした場合、誤差ε以下の関数従属性を1-δ以上の確率で抽出するために必要なサンプル数は、高々(〔.SU.〕)となることを示した。
|