初期刊本の画像データを用いた活字の識別の正確かつ効率的な手法を開発した。この手法により、一般のOCRソフトでは処理できない典型的な初期刊本についても、大規模なテキストデータ化が可能になると期待される。 次に、西洋最初の印刷本であるグーテンベルク聖書の画像を対象に本活字識別手法を応用した。識別結果に基づき、活字を客観的な基準で分析するため、活字画像のクラスタリングを行い、活字の鋳造方法についての先行研究を検証した。また、識別結果に基づきトランスクリプションデータを作成し、XMLによる本文記述を行った。
|