Budget Amount *help |
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 1998: ¥200,000 (Direct Cost: ¥200,000)
Fiscal Year 1997: ¥1,900,000 (Direct Cost: ¥1,900,000)
|
Research Abstract |
本研究では,文字と図形が混在している2値画像の中から,様々な方向と大きさを持つ文字列を抽出する方法と,抽出した文字列の認識についての研究を行った. まず,文字列抽出では,「文字列とは短い線分が密集している領域である」と考え,(1)線分の密集具合を表す2種類の線分密度(局所的線分密度と大域的線分密度)の開発(高速計算法)と,(2)これらの線分密度を特徴量とした文字列抽出法の開発を行った.開発した文字列抽出法では,まず始めにラスタベクタ変換により,画像データを線分データに変換する.次に,得られた線分データから局所的線分密度(注目点を中心とする円形領域内に含まれる線分本数)を求め,局所的に線分が密集している領域を文字列候補領域として抽出する.そして,文字列候補領域内における大域的線分密度(任意の直線と交差する線分数)から,線分の分布形状を調べ,帯状に分布している線分を文字列にグループ化していく.これにより文字列のサイズや傾き,あるいは接触などの影響を受けずに,文字列の抽出が行える.住宅地図など28枚の画像(文字列数276)に対し実験を行った結果,文字列抽出率91.3%と良好な結果が得られた. 次に,文字列の認識では,手書き日本語文字列を対象として研究を行った.従来の文字列認識法では文字列からの個々の文字切出しと文字認識が行われる.しかし,文字同士の接触や入込みが生じた場合,文字の切出しが正確に行えないという問題がある.本研究で開発した方法は文字列全体を一つのユニットとみなして認識を行う.そのため,文字の切出しと認識は不要となるが,文字列全体の形状変形が大きくなるという問題が生じる.そこで,これらの変形吸収のため,図形間隔,図形幅,文字列サイズの3段階の正規化と,DPマッチングを採用した.1,655件の手書き日本語文字列の認識実験により,高い認識性能(96.5%)が得られた.
|