2002 Fiscal Year Annual Research Report
Project/Area Number |
14310166
|
Research Institution | National Institute of Japanese Literature |
Principal Investigator |
原 正一郎 国文学研究資料館, 研究情報部, 助教授 (50218616)
|
Co-Investigator(Kenkyū-buntansha) |
岩崎 宏之 常磐大学, コミュニティー振興学部, 教授 (50087904)
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
安永 尚志 国文学研究資料館, 研究情報部, 教授 (20017411)
柴山 守 大阪市立大学, 学術情報総合センター, 教授 (10162645)
勝村 哲也 島根県立大学, 総合政策学部, 教授 (50066411)
|
Keywords | 古文書OCR / 画像処理 / 多重解像度解析 |
Research Abstract |
本研究では、古文書解読を支援するためのOCRを開発することが目的である。ただし、古文書の完全な自動解読を狙うのではなく、同一文字列・書体の文書が大量にあるような古文書の解読において、専門家の作業負担を軽減できる実用的な支援システムの開発に主眼を置く。 研究の主な手法としては、これまでに開発あるいは提案されている各種のアルゴリズムについて評価・拡張するとともに、電子辞書などを複合的に組み合わせ、文字識別精度の向上を図るための調査研究を行っていく。 今年度は、主として古文書OCRの前処理として必須である、つづき文字を切り出す手法についての研究を行った。具体的には、まず簡単なフィルタ処理(色に基づき文字の候補となるピクセルを抽出するカラーフィルタ、ゴマ塩雑音などの除去フィルタ、カラー画像を白黒階調さらに2値化するフィルタ)により、雑音の少ない良好な2値画像を作成する。次に、周辺分布からページごとの平均文字サイズ、縦書き・横書きに関するレイアウト情報を抽出する。文字はこれらの情報に基づいてピクセルから組み立てる。つまり、隣接するピクセルを集めて文字のセグメントを生成し、次いで近傍のセグメントを集めて文字あるいはつづき文字を生成する。つづき文字の切り出しは文字輪郭上において文字の区切りに相当する凹部分を結ぶ線に沿って行う。凹部分は輪郭法線角度の変化に基づいて抽出したが,このままでは多数の局所的凹部分も抽出してしまう。そこで文字の形状に基づいたヒューリスティック知識を工夫して,文字の区切りに相当する凹部のみを抽出できるようにした。しかし,このヒューリスティック知識は融通性や拡張性に欠けるなど問題点も多い。そこで,適切なサイズの凹部分を画像の多重解像度解析に基づいて発見する法を試みている。
|
Research Products
(2 results)
-
[Publications] 原 正一郎: "古文書OCRのための文字切り出し"情報処理学会研究報告2002-CH-55. Vol.2002,No.73. 51-56 (2002)
-
[Publications] Shoichiro Hara: "OCR for Japanese Classical Documents -Segmentaion of Cursive Characters-"Conference Proceedings IEEE ICITA 202. (CD-ROM). (149-10)1-(149-10)6 (2002)