• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

AI-OCRを活用した英語初期印刷本の文字認識

Research Project

Project/Area Number 20K20705
Research InstitutionSenshu University

Principal Investigator

松下 知紀  専修大学, 文学部, 教授 (50115424)

Project Period (FY) 2020-07-30 – 2023-03-31
KeywordsAI-OCR / 初期印刷本 / 中世英文学
Outline of Annual Research Achievements

本研究は、近年の量子コンピュータの開発を受けて、急速に開発が進んでいる科学の諸分野のうち、比較的進展が遅れていた中世英文学の初期印刷本のAI-OCRによる分析を行う。
現在の活版印刷に基づく印刷技術は、それぞれの文字が同一の雛形によるため、活字間の差異が基本的に見られない。そのため、通常のOCR技術で文章のデジタル化が可能である。しかし、本研究の1550年の木製活字による印刷には大きな差異が見られる。同一文字の木型を複数作成し、テキストに合わせて組み、さらに紙に印刷する工程である。そのため、目視により同一文字として判断されても、OCRという文字認識プログラムでは、多様な形態として把握され、認識精度が低くなった。さらに、印刷機の磨り出しも、一枚、一枚ばらつきが存在する。これらの問題を解決するために、本研究は、ばらつきのあるOCR認識を集約して単独の文字として認識する過程を工夫する。
本研究では、William LanglandのPiers Plowman, 1550を中心に4つの初期印刷本のAI-OCRを行った。まず、デジタル化されたテキストから同一文字を切りだり、文字別ファイルを作成した。同時に、対応するテキスト箇所を目視により、入力し確認用テキストを準備する。その際、中世英文学のテキストに特有の古代文字や省略文字についても取り扱いを決定する必要がある。不鮮明に印刷された箇所も多く、目視でも判断が困難な場合もある。
本研究は、多様な形態を示す、初期印刷本の活字をどのように集約するかを研究する重要な研究であり、15年前に試みた段階では得られない成果が見られる。また、海外でもDijital Humanitiesの一分野としてAI-OCRの研究が進んでいるので、研究者と情報交換をしたい。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

令和2年度はコロナ禍に見舞われ、大学内の図書館での調査・研究をはじめ多くの問題を抱えた1年だった。本来であれば、文字の切り出し、資料作成などを学生に委託する予定であったが、作業を企業が引き受けてくれて、大きな問題にはならなかった。
本学図書館も問題を抱えつつ、研究に必要な貴重な資料の閲覧を認めてくれた。そのため、デジタルテキストでは疑問となった箇所の正確な記述を確認できた。
委託企業がAI-OCRに精通し、業績のある企業であるため、研究が順調に進んでいる。研究資料を早期に提供し、順調に準備が行われた。また、当該資料の転写作業も段階を踏んで行われたので、委託企業との間に問題は生じていない。月1回の割合で定期的にリモート会議を開いて、意見交換をし情報を共有している。
本研究の対象作品であるWilliam LanglandのPiers Plowman, 1550年の転写作業を予定通り進めている。約100ページのテキストを検証用に作成し、相当部分の文字の切り出しを行った。本学のこの資料は数少ない実物で極めて明瞭に把握できた。今後研究対象となる手稿写本もデジタルテキストだと不鮮明であるので、現地調査が必要である。
海外の同様の研究を行う研究者を探して、連絡を取り、今後の可能性を検討している。また、東京ビッグサイトなどで開催される講演会、展示会に出席して新たな計画を準備している。

Strategy for Future Research Activity

William LanglandのPiers Plowman, 1550年版のAI-OCRの研究を進めるために、一層詳細な検討が必要である。現在の活版印刷に使用される文字はどの文字も均質に作成され、問題がないが、初期印刷本の木版用の活字は、一般に変異の幅が大きいうえに、文字ごとに変異幅が異なるように思われる。例えば、小文字のw, a, kなどは変異幅が大きいのに対して、o, t, iなどは変異幅が比較的小さい。また、sは2種類あり、同じ文字として登録が必要になる。文字ごとに詳細に調査して問題点を指摘する。
高精度のコンピューターにより繰り返し学習させることにより、研究成果を高める必要がある。変異幅が大きい文字ほど多くの学習時間が必要となる。大文字については世紀数が少なく、比較することが困難だろう。
現在、人間の顔認証技術が進んでおり、数値化されない画像対象を特定する技術が完成しているので、そのような技術応用をすれば、将来解決できると思われる。
例えば、小文字の縦横の比率、斜線の斜度、丸み部分の曲がり具合など、文字特有の部分を抽象化して分析に応用することも検討できる。人間の視覚による認識能力は、文字全体のバランス、つまり、縦横の比率、曲線の円み・角度、斜度などにより行われると思われるが、どのような字体でもこの概念は継承されるだろう。このような文字解釈の抽象性をプログラムに組み込むことが期待される。
海外の研究者も「手書き文字」の認識に興味を持ち、研究を進めているので参考にしたい。

Causes of Carryover

令和2年度のコロナ禍の影響により、研究の開始が大幅に遅延した。そのため、使用額を来年度に繰り越して、研究を順調に進める。

  • Research Products

    (2 results)

All 2020

All Journal Article (2 results)

  • [Journal Article] 『農夫ピアズ A, B, C, Z Versions』パラレル・テキスト・プロローグ2020

    • Author(s)
      松下知紀
    • Journal Title

      『人文科学年報』

      Volume: 50 Pages: 213, 241

  • [Journal Article] William Langland's Piers Plowman C-Version, V manuscript -- Trinity College Dublin MS 212 -- I2020

    • Author(s)
      Tomonori Matsushita
    • Journal Title

      『専修人文論集』

      Volume: 106 Pages: 147, 171

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi