1992 Fiscal Year Annual Research Report
検索索引を自動生成する自由書式文書画像データベースの構築
Project/Area Number |
03558007
|
Research Institution | Kyoto University |
Principal Investigator |
池田 克夫 京都大学, 工学部, 教授 (30026009)
|
Co-Investigator(Kenkyū-buntansha) |
西村 真一 三田工業株式会社, 技術部, 開発研究職
渡辺 正子 京都大学, 工学部, 教務職員 (70127158)
大田 友一 筑波大学, 電子情報工学系, 教授 (50115804)
広瀬 勝一 京都大学, 工学部, 助手 (20228836)
美濃 導彦 京都大学, 工学部, 助教授 (70166099)
|
Keywords | 自由書式文書 / 文書画像 / データベース / 文字認識 / 検索索引 |
Research Abstract |
本年度は,新たに導入したカラースキャナとその制御用ワークステーション,磁気ディスクを利用して自由書式文書画像の原画像データベースを構築すると共に,文書画像の文字領域を利用して曖昧な検索を可能とする手法を中心として研究を行った. 以下に具体的な研究成果を列挙する. 1.文字認識手法を用いて,文書画像中の文字列の各文字について複数の文字候補を自動的に蓄積し,文字列を検索キーとした曖昧な検索を高速に行う手法を実現した.これにより,高精度で実用的な文書画像の全文検索が可能となった. 2.カラー印刷文書においては,文字は一般に背景と異なる単一の色で印刷されている.この性質を利用して,カラー印刷文書画像から,色情報を用いて文字パターンを抽出する方法を提案し,さらに実験によってその有効性を確認した. 3.カタログ画像の表領域の構造及び,項目の内容を認識し,属性とその値の対からなる検索索引を自動抽出する手法を実現した.さらに,表の詳細な構造を覚えていなくても検索できるように,値となる各項目について,その属性となり得るすべての項目との対を生成した. 4.文字の切り出し誤りに対処する方法として,文字の縦横比等の図形的な特徴ばかりでなく,切り出した各文字に対して文字認識を行い,単語辞書との照合を行う手法を実現した. 5.文字の複雑さを表す尺度として,文字の縦,横方向のストローク数の最大値を考え,この値と,結果の信頼できる文字認識に必要な解像度の下限との関係を明らかにした.
|
Research Products
(5 results)
-
[Publications] 仙田 修司: "モジュールのパイプライン結合による分散処理の一方式" 情報処理学会研究報告DPS. 92. 131-138 (1992)
-
[Publications] 滝沢 圭: "単語レベルの知識を用いた文字切り出し法" 画像電子学会研究会. 19-24 (1992)
-
[Publications] 西村 真一: "文字認識に必要な解像度についての一検討" 情報処理学会第45回全国大会. 2G. 279-280 (1992)
-
[Publications] 有田 大作: "書式のない文書画像からの文字パターン列の抽出" 情報処理学会第45回全国大会. 2G. 281-282 (1992)
-
[Publications] 森 晴信: "概略画を用いたマルチメディア文書画像の検索" 情報処理学会第45回全国大会. 2S. 201-202 (1992)