手書き文字認識を援用する古文書読解支援システムの構築を目指して、本年度は以下の項目について研究を進めた。 (1)古文書画像データベースの作成と雑音除去 「摂州嶋下郡吹田村の宗門改帳」を対象として、動的なしきい値設定に基づく2値化手法を導入するとともに、射影分布、走査線分布、連続する黒画素分布、外接矩形と黒画素の形状などに着目した雑音除去手法を開発し、データベースの高品質化を図った。 (2)キャラクタスポッティングの高精度化 「相模国の天保郷帳」を対象として、加重方向指数ヒストグラムによる特徴抽出法と自己想起型ニューラルネットワークによる学習法に変更を加えることにより、指示した特定文字だけを認識して抽出するキャラクタスポッティングの高精度化を図った。 (3)背景領域の細線化による文字切り出しと認識 種々の古文書文字列画像を対象として、古文書に特有の続け字や続け書き、文字の食い込みに対処することを目的に、文字列の背景領域に細線化処理を適用して分割候補点を設定し、認識処理を援用しながら領域の統合を行うことにより、文字列を個別に切り出す手法を開発した。 (4)古文書読解支援システムの構築 「天保郷帳」を例題として、初心者の読解に有効な文字情報をキャラクタスポッティング手法によって表示する古文書読解支援システムを構築した。
|