初期刊本の本文記述を行う上で不可欠な、画像データを用いた活字画像の識別の効率的な手法を開発し、洗練させた。多くの初期刊本は、文字間隔が狭いゴシック文字(いわゆるひげ文字)のフォントで印刷されるだけでなく、多数の異形活字や特殊記号や短縮語が用いられていることから、一般のOCR(光学的文字認識)ソフトウェアでは大規模かつ正確なテキストデータ化を行うことができないためである。本研究では、汎用的な活字境界識別とテンプレートマッチングを組み合わせ、活字画像を自動識別してから人手で修正する半自動化を行うことにより、高い正確性を実現しながらも、活字境界識別やトランスクリプションデータ作成にかかる労力や時間を大幅に軽減することができた。これは、多くの初期刊本に応用することができる汎用的な手法となっている。 次に、西洋最初の印刷本であるグーテンベルク聖書の慶應義塾図書館所蔵本の高精細デジタル画像を対象にその識別手法を応用し、使用されている活字画像の同定を行った。従来、グーテンベルク聖書の印刷に使われている活字の種類については、研究者によって判断が異なるという問題があったが、個別の活字画像を正確に識別できれば、客観的な判断基準をもって活字の種類を同定し、印刷工程の解明を進めることができると期待できる。 そこで、活字画像のクラスタリングを行うことにより、最初期の活字の鋳造方法についての先行研究の検証を試みた。また、活字画像の識別結果に基づきトランスクリプションデータを作成し、XMLによる本文記述を行った。その成果の一部は、日本図書館情報学会2014年度研究大会および国際アーサー王学会日本支部2014年度年次大会において発表した。
|