1997 年度実績報告書

古典原本用光学的文字認識(OCR)装置に関する開発研究

研究課題

研究課題/領域番号	09410118
研究機関	国文学研究資料館
研究代表者	原正一郎国文学研究資料館, 研究情報部, 助教授 (50218616)
研究分担者	相田満国文学研究資料館, 研究情報部, 助手 (00249921)
キーワード	デジタル・ライブラリ / 画像処理 / OCR
研究概要	国文学研究支援用デジタルライブラリの一部分であるイメージデータベータベースと連動し、歪みが大きく点などが欠落することの多い、古典原本の文字を識別するためのOCR(光学的文字認識装置)を開発する。平成9年度は、研究設備の構築と基礎的検討が中心であった。設備の構築ではコンピュータシステムの導入、基本的なイメージ処理プログラムの整備および文字領域の抽出プログラムの作成を行った。基礎的検討では、関連領域の研究動向調査、基本的な文字識別知識の収集と整理およびアルゴリズムの開発を行った。 1)文字識別についての研究事例を文献および海外レビューに基づいて検討した。文法を適用した事例やシステムとして実現されている事例については、その特徴・長所・問題点など詳細に検討した。 2)従来の文字分類法および文字判読法について整理し、その特色・長所・問題点などを明確化した。同様に文字構造の記述法あるいは検索法(部首、四角号碼など)についても調査した。 3)これまでの研究で作成したイメージ処理プログラムをライブラリ化した。その際に、バグの修正、不足している機能の追加および処理速度の向上を図った。 4)上記ライブラリを利用して、ページイメージのノイズ除去、文字領域の抽出、および大きさなどの正規化を行うプログラムを開発した。

研究成果
(4件)

すべてその他

すべて文献書誌 (4件)

[文献書誌] Shoichiro HARA: "A Digital Library System for Japanese Classical Literature" ACH-ALLC'97 Conference Abs.80-82 (1997)
[文献書誌] Shoichiro HARA: "Markup and Conversion of Japanese Classical Texts Using SGML In the National Institute of Japanese Literature" D-Lib Magazine. July/August. (1997)
[文献書誌] 原正一郎: "国文学研究と国文研ホームページ" 人文学と情報処理. NO.15. 29-44 (1997)
[文献書誌] 原正一郎: "画像データベースと画像処理" 東洋学へのコンピュータ利用抄録集. (1998)