• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Final Research Report

Reconstructing Knowledge from Early-Modern Books

Research Project

  • PDF
Project/Area Number 20H04483
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeSingle-year Grants
Section一般
Review Section Basic Section 90020:Library and information science, humanistic and social informatics-related
Research InstitutionNara Women's University

Principal Investigator

Jo Kazuki  奈良女子大学, 生活環境科学系, 教授 (90283928)

Co-Investigator(Kenkyū-buntansha) 高田 雅美  奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽  滋賀大学, データサイエンス学系, 助教 (20814370)
Project Period (FY) 2020-04-01 – 2023-03-31
Keywordsデジタルアーカイブ / 文字認識 / レイアウト解析 / ディープラーニング / ニューロ翻訳
Outline of Final Research Achievements

In early-modern printed character recognition, we proposed a method suitable for multi-column, multi-heading publications such as newspapers in layout analysis and confirmed its effectiveness. In the recognition part, we implemented a method to retrieve training data by crawling, and built an environment that can collect training data hundreds of times faster than human workers can do it manually. We also established a method to artificially create character types not found in the data of specific early-modern book publishers using GAN. Furthermore, by changing the recognition engine from CNN to deep metric learning, we confirmed a recognition rate of over 99%, thereby completing our research on early-modern printed character recognition. For neural translation from early-modern literary style to present colloquial style, we prepared 60,000 training data pairs and showed that the Transformer is capable of translating with sufficient accuracy.

Free Research Field

情報工学

Academic Significance and Societal Importance of the Research Achievements

本研究成果は画像としてアーカイブ化された近代書籍のテキスト化を自動的に行えることを示したもので、テキスト化された近代文語体の文章を現代口語体に自動翻訳することで、近代書籍の知を再構成して利用することが可能となる。現在スタンフォード大学フーバー研究所でアーカイブ化が進められている邦字新聞(明治以降の日本人移民が現地で出版した日本語の新聞の総称)に本研究成果が利用される予定である。また、本研究の知見は令和6年度に公開される国会図書館のNDLOCR2で一部利用されており、NDLOCR2では近代書籍に対応した初めてのOCRとなる。

URL: 

Published: 2024-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi