研究概要 |
本年度は,白黒印刷文書へのデータ埋め込み法の研究を行うと共に,文書画像検索への応用のための基礎的検討を行った. 1.白黒印刷文書へのデータ埋め込み OCR技術が発展した今日でも,印刷文書を誤りなく電子文書に変換することは困難を伴う.本研究では,この問題を解決する新しい手法として,電子的に作成される印刷文書を対象とし,印刷時に電子文書復元のための機械可読データ(電子文書の全文データ)を同時に印刷する手法を考案した.本手法の特徴は,バーコードなど人間から見て無意味な模様は使用せず,会社のマークなどを印刷文書の地模様として印刷し,それにデータを埋め込む点にある.これにより,文書の外観をあまり悪化させずに,大量のデータを埋め込むことが可能となる.B5文書1ぺージを対象とした実験の結果,約8KBのデータを埋め込むことができた.また,オリジナル(傾きなしと約3°),コピー1回(傾きなし)の計3印刷文書を対象に復元を行ったところ,埋め込んだデータの99.4%を正しく復元できることがわかった. 2.文書画像データベース検索の基礎的検討 文書画像データベースの検索精度を向上させるためには,ぺージが検索要求にどれほど合致するかを計測するのではなく,検索要求に合致する部分がページ内に含まれるかどうかを検査する必要がある.本研究では,このような観点に基づき,文書画像データベースから検索要求に合致する部分画像を取り出す画像検索(部分検索)法を開発した.本手法では,検索キーワードの密集する箇所が要求に合致する部分であると考え部分検索を行う.本手法の特徴は,密集度合の計測に,特徴ベクトルで表現した検索キーワードの2次元出現密度分布を利用し,文書画像内の各画素から検索質問に該当する画素を取り出すことで部分検索を実現する点にある.新聞紙面24ぺ一ジを対象に実験を行ったところ,画素単位の再現率36.2%,精度26.6%を得た.
|