2003 Fiscal Year Annual Research Report
古・中世ロシア文字のOCRによる認識のための実験的予備研究
Project/Area Number |
15652016
|
Research Institution | Nagoya University |
Principal Investigator |
中條 直樹 名古屋大学, 大学院・国際開発研究科, 教授 (10023623)
|
Co-Investigator(Kenkyū-buntansha) |
MUHTAR Mahsut 名古屋大学, 大学院・国際開発研究科, 助手 (20283517)
|
Keywords | 古・中世ロシア文字 / OCR / マイクロフィルム / マイクロフィッシュ / 白樺文書 / 認識率 / pdf |
Research Abstract |
本研究課題で取り扱う古・中世ロシア文字は、ロシア年代記全集に見られるように、活字化され提供されているものが多い。しかし、例えば「白樺文書」の発掘記録報告書では、その一部は活字化されているものの、手書きのままの資料も残されている。この「白樺文書」以外にも、手書きの古・中世ロシアの資料は、マイクロフィルム、マイクロフィッシュにより、利用可能であるが、それらの文献の文字に関しては、OCRによる認識は未着手である。 本プロジェクトでは、最近のスキャナーの高性能化を踏まえ、また、マイクロフィルム、マイクロフィッシュからの読み取りを行おうとするものである。このため、透過原稿ユニット付きのフラットヘッドスキャナーを試行的に行った。マイクロフィルム、マイクロフィッシュから印刷を行い、それを読み取ることは検討の対象とするに止めた。マイクロフィッシュは通常のフィルム(35mm、ブローニー版)と異なるため、専用の枠を作成し、スキャン時の解像度、ガンマ値(=露出)の設定をした。これはOCRソフトでの認識率を高めるため、ガンマ値の最適値を求める必要があったからである。この作業を通しても、データがマイクロフィルム、マイクロフィッシュであるため、OCRでの認識率は期待したほど高くない。このため、保存形式として、pdfを採用することにした。Adobe Acrobatを用いることにより、読み取った画像データと、OCRの結果の文字データを共に一括して関連づけ、保存することが可能であり、また検索にも対応しうるが、問題はOCRの認識率の低さであり、これを高めることが焦眉の課題である。
|