1992 年度研究成果報告書概要

古典フルテキストデータベース作成のための古典原本の光学的自動入力に関する研究

研究課題

研究課題/領域番号	04610271
研究種目	一般研究(C)
配分区分	補助金
研究分野	国文学
研究機関	国文学研究資料館
研究代表者	原正一郎国文学研究資料館, 研究情報部, 助教授 (50218616)
研究期間 (年度)	1992
キーワード	画像処理 / 古典初期刊本 / OCR / 領域分割 / 判別しきい値選定法 / クラスター分析 / 雑音除去
研究概要	古典原本へOCRを適用する際に問題となる画像雑音の処理アルゴリズムの開発を行った。本研究の特色は色彩情報を利用した点にある。研究は単年度計画であったため、研究設備の整備と色彩情報の利用可能性についての基礎実験が中心となった。実験の資料は白色系の和紙に黒色系の墨で書かれた古典原本、画像処理の対象は「裏写り」と「朱書き」の除去に限定した。実験結果の概要は以下の通りである。 (1)古典原本イメージの色彩情報:カラーイメージスキャナ(100dpi,RGB各256諧調)で取り込まれた各ピクセルデータをRGB表色系へ展開し資料の色彩構造を考察した。これより、(a)多くのピクセルは直線R=G=Bの周辺に分布する、(b)朱書きのような特殊な色のピクセルは(a)とは異なった位置に分布する、(c)RGBの各輝度分布は2峰性を示す、ことが分った。 (2)領域の分解:和紙と文字の分離は上記(c)の性質よりRGB各々に対して判別しきい値選定法を適用することにより達成できた。また(a)及び(b)の性質より同手法で「朱書き」部分の分離も可能であった。しかし、本法では、(a)「表文字」の周辺部が脱落する、(b)和紙と「裏文字」の分離が不十分、という問題点があった。そこで、教師情報なし判別法の一法であるクラスター分析を適用して分離精度の向上をこころみた。本法ではある程度の分離精度の改善を得たが、(a)計算コストが高い、(b)画一的な手法やパラメータの適用では多様な古典原本に対処できない、などの問題点も明確になった。以上の基礎実験から、古典原本の画像雑音処理に色彩情報の利用が有効であることが確認された。今後は、より低コストな大域的領域分割法の開発と、分割された領域周辺の局地的情報を利用した分割精度の向上が課題である。