2003 Fiscal Year Annual Research Report
Project/Area Number |
14310166
|
Research Institution | National Institute of Japanese Literature |
Principal Investigator |
原 正一郎 国文学研究資料館, 研究情報部, 助教授 (50218616)
|
Co-Investigator(Kenkyū-buntansha) |
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
柴山 守 京都大学, 東南アジア研究センター, 教授 (10162645)
安永 尚志 国文学研究史料館, 研究情報部, 教授 (20017411)
岩崎 宏之 常磐大学, コミュニティ振興学部, 教授 (50087904)
相田 満 国文学研究史料館, 研究情報部, 助手 (00249921)
|
Keywords | 古文書OCR / 画像処理 / 多重解像度解析 |
Research Abstract |
本研究では古文書解読を支援するOCRを開発する。ただし、古文書の完全な自動解読を狙うのではなく、同一文字列・書体の文書が大量にあるような古文書の解読において、専門家の作業負担を軽減する実用的な支援システムの開発に主眼を置く。研究では、これまでに開発あるいは提案されている各種のアルゴリズムを評価・拡張するともに、電子辞書などを複合的に組み合わせて文字識別精度の向上を図る。 本年度は、続き文字の効率的な分離についての研究を継続した。続き文字の切り出しは、文字輪郭上の相対する比較的大きな凹部分を結ぶ線に沿って行うことを基本としている。本研究の特徴は、適切な凹部分の抽出に多重解像度解析を用いる点にある。基礎的な手続きは、2値化された文字画像に適当なスケールのガウス関数を畳み込み画像をボカし、さらにLaplacianオペレータを適用してエッジを抽出する。ガウス関数のパラメータ(σ)により低域通過フィルタのスケールを調整する。このようにして得られたエッジは文字の大まかな輪郭に対応すると仮定する。この文字輪郭の一組の凹部分を結ぶ線が、続き文字を分離する候補線となる。この手続きを、様々なスケールのフィルタから生成された文字輪郭に対して行う。 異なるスケールの文字輪郭から抽出された線がほぼ同じ位置に存在するならば、その線はオリジナルの文字画像において意味を持つ、つまり正しい文字の分離線と考えられる。ただし大きなスケールの画像上における線の位置と、オリジナル画像上の本来の位置とはずれていることが多い。そこで、大きなスケールの画像と一段精度の高い画像間で線を対応づける操作を、各スケール間で繰り返し、正しい分離線を特定する方法を試みた。その結果、おおむね良好な結果が得られたが、「適当なスケール」を先験的に与えなければならないという欠点がある。来年度はこの点を中心に研究を推進する。
|
Research Products
(1 results)