現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
近年の情報工学の進展により、AI-OCRによる英語初期印刷本の文字認識も成果を挙げつつある。凸版印刷の協力により、同社のAI-OCRによる認識エンジンに1550年出版のPiers Plowman: B-Versionの文字認識を行い認識結果を得た。同社は、63の文字について約50,000字形を抽出して、当該文字のUnicodeと出現数をまとめた。出現数が最も多いのは、小文字のeであり、UnicodegがU+0065、出現数は、7,474だった。以下、t (4,165), h (3,571), o (3,483), a (3,255), n (3,055), s (2,822), r (2,657), d (2,372), l (2,610), i (2,066), y (1,594), u (1575), m (1,324), w (1,041), f (1,037)と続く。それに対して、大文字U (4), Q (10), Y (12)と出現数が少ない。この他、古文字、合字がある。出現数の大きな文字は、含まれる変異の幅が広く、認識率が高く、出現数の小さな文字は、変異の幅が小さく、認識率が低い傾向となる。また、収納した字形で認識できない例は、正しく認識できないままである。 今年度の最も大きな成果は、U Innsbruck, Swissを中心に行っている、Transkribus Projectのプログラムとの出会いである。同Projectは、手書き文字を単語単位で認識するプログラムを開発したので、文字単位の認識と比較して、演算回数を減らすことができる。また、羊皮紙1ページ分をまとめてスキャンし、行ごとに分離して認識する。羊皮紙を実験したところ、高い認識率をあげた。このプログラムは、深層学習のメカニズムも装備しているので、学習を重ねるたびに認識率が向上してゆく。
|
今後の研究の推進方策 |
令和4年度は、凸版印刷の協力による英語初期印刷本文字認識研究に加えて、U Insbruck, SwissのTranskribusプロジェクトの協力が可能になり、手稿写本の手書き文字をページ単位で認識するプログラムを活用する。 本研究は、TranskribusプロジェクトのAI-OCR(文字認識)プログラムにより、中世英文学手稿写本の文字認識を行う。ChaucerのCanterbury Talesの手稿写本は約70、Piers Plowmanの写本は約50存在する。これらの写本に対して、Transkribusプログラムを活用して、各写本に固有の認識プログラムを確立し、Deep Learningを重ねることにより、各写本のデジタル転写テキストの作成を行う。TranskribusのPublic Modelの一つを応用して、Piers Plowman: A-Text, V写本、Bodleian Lib., Oxfordの認識を行ったところ、高い認識率を得た。同写本は、重要写本で、大部で、多くの作品品が収納されているので、文字認識の良い研究対象である。Oxfor, Cambridge, Vatican, bnfなどの貴重写本に対して、Transkirubsによるデジタルテキストの作成が進めば、人文学に広く貢献することになる。 今年度は、Transkribusの動作マニュアルを作成し(業者委託)、多くの写本に操作を行う。また、Transkribus Conferenceにも参加して、国際的レベルの文字認識の研究を調査する。さらに、7月に開催されるNew Chaucer Society 2022, Durham, UKにリモート参加して、発表を行う。また、これらの成果を論文にまとめて発表する。
|