研究課題
古文書翻刻の支援を目指したOCRの研究・開発を行った。古文書画像には虫喰い・褐色・変色・汚れなどが多い。また多くの文書は草書あるいは行書で書かれており文字が相互に接続していることが多い。ところが従来の手書き文字研究では文字認識に主眼が置かれ、実験では人手により切り出され整形された文字が使われており、実用化にはほど遠い状態である。そこで本研究では実用的な古文書OCR開発の基礎として、古文書画像から文字を正しく切り出す手法の開発を主として行った。本研究の前半では、汚れた古文書画像から文字部分を抽出し、さらにつづき文字を切り出すフィルタ群の開発を行った。まず色彩に注目して文字の候補となるピクセルを抽出するカラーフィルタ、ゴマ塩などのノイズ除去フィルタ、カラー画像を白黒階調に変換するフィルタ、2値化フィルタなどにより、ノイズの少ない良好な2値画像を構成した。次に周辺分布から画像ごとの平均文字サイズ、縦書き・横書きに関するレイアウト情報を抽出し、これらの情報に基づいてピクセルから文字の部分セグメントを組み立てた。次いで近傍のセグメントを集めて文字あるいはつづき文字を生成した。つづき文字は、文字輪郭上の相対する凹部分を結ぶ線に沿って切り出した。上記の文字切り出し法の問題点は、文字図形の局所的な形状の影響を強く受けてしまうことである。そこで文字画像の大局的な形を文字切り出しの情報として利用する方法を考案した。この手法の特徴は、適切な凹部分の抽出に多重解像度解析を用いた点にある。基礎的な手続きは、2値化された文字画像に適当なスケールのガウス関数を畳み込んで画像をボカし、さらにLaplacianオペレータを適用してエッジを抽出する。ガウス関数のパラメータσにより低域通過フィルタのスケールを調整する。このようにして得られたエッジは文字の大まかな輪郭に対応すると仮定した。この文字輪郭の一組の凹部分を結ぶ線がつづき文字を分離する候補線となる。この手続きを様々なスケールのフィルタから生成された文字輪郭に対して行う。異なるスケールの文字輪郭から抽出された分離線がほぼ同じ位置に存在するならば、その線はオリジナルの文字画像において意味を持ち、これを正しい文字の分離線と考えた。最初の手法に比べて局所的な形状に対してロバストであるという結果を得た。この手法を高速化するためにwaveletによる多重解像度解析も試み、おおむね良好な結果を得た。
すべて 2004
すべて 雑誌論文 (1件)
PNC 2004 Annual Conference in Conjunction with PRDLA Program Abstracts
ページ: 121