手書き文字認識を援用する古文書読解支援システムの構築を目指して、本年度は次の2項目について研究を進めた。 (1)古文書画像データベースの作成 システム構築の例題として、2種類の古文書画像データベースを作成した。一つは、初心者にも比較的なじみ易い「天保郷帳」を取り上げ、相模国と越前国についてデータベースを作成した。他の一つは、中級者向けとして「宗門改帳」を対象として、陸奥国会津郡小松川村と攝津国嶋下郡吹田村の画像データベースを作成した。 (2)キャラクタスポッティングの研究 文書中のある指定文字だけを認識して、抽出するキャラクタスポッティング手法について検討した。その手法は、古文書に特有のつづけ字や文字の食い込みに対処するため、認識処理とストローク接合部検出を融合した文字切り出し法を提案し、これに加重方向指数ヒストグラムによる特徴抽出と自己想起型ニューラルネットワークによる認識処理を付加したものである。この方法により、相模国の天保郷帳における石高表記部を対象として、94.22%の正解率が得られることを確認し、提案手法の有効性を示した。 これにより、初心者が要求する文書中のある文字だけを教示して、読解を支援するシステムの構築に実現の見通しが得られた。
|