• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

AI-OCRを活用した英語初期印刷本の文字認識

Research Project

Project/Area Number 20K20705
Research InstitutionSenshu University

Principal Investigator

松下 知紀  専修大学, 文学部, 教授 (50115424)

Project Period (FY) 2020-07-30 – 2023-03-31
Keywords中世英文学 / 文字認識 / 人工知能 / 英語初期印刷本 / 中英語方言 / 英語手稿写本
Outline of Annual Research Achievements

本研究は、AI-OCR(文字認識)プログラムにより、英語初期印刷本の文字認識を行い、従来中世英文学研究の20対象から外れていた、言語の特徴を明らかにして、英語史研究のデータベースを提供する意義を有する。近年の情報工学の進展により、高精度で高速のコンピュータが開発され、情報工学が人文科学に適用することが可能になった。
令和3年度は、昨年に引き続いて、凸版印刷のAI-OCRシステムにより研究を進めた。1)5万字の字形データベースを中英語文献から切り出して作成した。2)AI-OCRに関する分析作業として、AI-OCRエンジンを生成した。3)AI-OCRエンジンの組み込みを行った。4)試験データに対する文字認識を行った。5)さらに、各文字の認識精度を測定した。
さらに、富士通のAI-OCRプログラムにより、初期印刷本の文字認識調査を行った。プログラムは帳票の枠内に記入された単独の文字を認識するものである。そのため、日本語の漢字認識には有力であるが、しかし、複数の文字から成る英語単語の認識には効果がなかった。
これと並行して、以前作成したPiers Plowman: the A-Version Manuscriptsの20写本の転写テキストを再確認し、修正を行った。これらの手稿写本は、今後重要な研究対象となり、貴重なデータベースとなる。手書き文字は、初期印刷本の文字と比較して、変異幅が大きく、認識が困難であったが、現在の高水準のAI-OCR技術によれば、認識率向上の可能性がうかがえる。
今年度の最も大きな成果は、U Innsbruck, Swissを中心に行っている、Transkribus Projectのプログラムとの出会いである。同Projectは、手書き文字を単語単位で認識するプログラムを開発している。深層学習のメカニズムも装備しているので、学習を重ねて認識率が向上してゆく。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

近年の情報工学の進展により、AI-OCRによる英語初期印刷本の文字認識も成果を挙げつつある。凸版印刷の協力により、同社のAI-OCRによる認識エンジンに1550年出版のPiers Plowman: B-Versionの文字認識を行い認識結果を得た。同社は、63の文字について約50,000字形を抽出して、当該文字のUnicodeと出現数をまとめた。出現数が最も多いのは、小文字のeであり、UnicodegがU+0065、出現数は、7,474だった。以下、t (4,165), h (3,571), o (3,483), a (3,255), n (3,055), s (2,822), r (2,657), d (2,372), l (2,610), i (2,066), y (1,594), u (1575), m (1,324), w (1,041), f (1,037)と続く。それに対して、大文字U (4), Q (10), Y (12)と出現数が少ない。この他、古文字、合字がある。出現数の大きな文字は、含まれる変異の幅が広く、認識率が高く、出現数の小さな文字は、変異の幅が小さく、認識率が低い傾向となる。また、収納した字形で認識できない例は、正しく認識できないままである。
今年度の最も大きな成果は、U Innsbruck, Swissを中心に行っている、Transkribus Projectのプログラムとの出会いである。同Projectは、手書き文字を単語単位で認識するプログラムを開発したので、文字単位の認識と比較して、演算回数を減らすことができる。また、羊皮紙1ページ分をまとめてスキャンし、行ごとに分離して認識する。羊皮紙を実験したところ、高い認識率をあげた。このプログラムは、深層学習のメカニズムも装備しているので、学習を重ねるたびに認識率が向上してゆく。

Strategy for Future Research Activity

令和4年度は、凸版印刷の協力による英語初期印刷本文字認識研究に加えて、U Insbruck, SwissのTranskribusプロジェクトの協力が可能になり、手稿写本の手書き文字をページ単位で認識するプログラムを活用する。
本研究は、TranskribusプロジェクトのAI-OCR(文字認識)プログラムにより、中世英文学手稿写本の文字認識を行う。ChaucerのCanterbury Talesの手稿写本は約70、Piers Plowmanの写本は約50存在する。これらの写本に対して、Transkribusプログラムを活用して、各写本に固有の認識プログラムを確立し、Deep Learningを重ねることにより、各写本のデジタル転写テキストの作成を行う。TranskribusのPublic Modelの一つを応用して、Piers Plowman: A-Text, V写本、Bodleian Lib., Oxfordの認識を行ったところ、高い認識率を得た。同写本は、重要写本で、大部で、多くの作品品が収納されているので、文字認識の良い研究対象である。Oxfor, Cambridge, Vatican, bnfなどの貴重写本に対して、Transkirubsによるデジタルテキストの作成が進めば、人文学に広く貢献することになる。
今年度は、Transkribusの動作マニュアルを作成し(業者委託)、多くの写本に操作を行う。また、Transkribus Conferenceにも参加して、国際的レベルの文字認識の研究を調査する。さらに、7月に開催されるNew Chaucer Society 2022, Durham, UKにリモート参加して、発表を行う。また、これらの成果を論文にまとめて発表する。

Causes of Carryover

英語の初期印刷本の認識について、AI-OCRによる認識作業に先立って、対象となる文字資料の切り出し作業を行い調査結果を出した。国際学会の開催が延期となり、旅費を未使用のままとした。令和4年度に繰り越して、国際学会へはリモート発表に切り替えて、Transkribusプログラムの作動マニュアル作成費に充当する。

  • Research Products

    (2 results)

All 2022

All Journal Article (1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] ラングランド『農夫ピアズ:A, B, C& Z Versions』パラレル・テキスト・第二歌2022

    • Author(s)
      松下知紀
    • Journal Title

      専修人文論集

      Volume: 110 Pages: 47, 101

  • [Presentation] An IT Approach to Producing Diplomatic Texts of Piers Plowman and The Canterbury Tales Manuscripts2022

    • Author(s)
      Tomonori Matsushita
    • Organizer
      New Chaucer Society
    • Int'l Joint Research

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi