国文学研究支援用デジタルライブラリの一部分であるイメージデータベータベースと連動し、歪みが大きく点などが欠落することの多い、古典原本の文字を識別するためのOCR(光学的文字認識装置)を開発する。平成9年度は、研究設備の構築と基礎的検討が中心であった。設備の構築ではコンピュータシステムの導入、基本的なイメージ処理プログラムの整備および文字領域の抽出プログラムの作成を行った。基礎的検討では、関連領域の研究動向調査、基本的な文字識別知識の収集と整理およびアルゴリズムの開発を行った。 1)文字識別についての研究事例を文献および海外レビューに基づいて検討した。文法を適用した事例やシステムとして実現されている事例については、その特徴・長所・問題点など詳細に検討した。 2)従来の文字分類法および文字判読法について整理し、その特色・長所・問題点などを明確化した。同様に文字構造の記述法あるいは検索法(部首、四角号碼など)についても調査した。 3)これまでの研究で作成したイメージ処理プログラムをライブラリ化した。その際に、バグの修正、不足している機能の追加および処理速度の向上を図った。 4)上記ライブラリを利用して、ページイメージのノイズ除去、文字領域の抽出、および大きさなどの正規化を行うプログラムを開発した。
|