2022 Fiscal Year Final Research Report
Reconstructing Knowledge from Early-Modern Books
Project/Area Number |
20H04483
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Nara Women's University |
Principal Investigator |
Jo Kazuki 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス学系, 助教 (20814370)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | デジタルアーカイブ / 文字認識 / レイアウト解析 / ディープラーニング / ニューロ翻訳 |
Outline of Final Research Achievements |
In early-modern printed character recognition, we proposed a method suitable for multi-column, multi-heading publications such as newspapers in layout analysis and confirmed its effectiveness. In the recognition part, we implemented a method to retrieve training data by crawling, and built an environment that can collect training data hundreds of times faster than human workers can do it manually. We also established a method to artificially create character types not found in the data of specific early-modern book publishers using GAN. Furthermore, by changing the recognition engine from CNN to deep metric learning, we confirmed a recognition rate of over 99%, thereby completing our research on early-modern printed character recognition. For neural translation from early-modern literary style to present colloquial style, we prepared 60,000 training data pairs and showed that the Transformer is capable of translating with sufficient accuracy.
|
Free Research Field |
情報工学
|
Academic Significance and Societal Importance of the Research Achievements |
本研究成果は画像としてアーカイブ化された近代書籍のテキスト化を自動的に行えることを示したもので、テキスト化された近代文語体の文章を現代口語体に自動翻訳することで、近代書籍の知を再構成して利用することが可能となる。現在スタンフォード大学フーバー研究所でアーカイブ化が進められている邦字新聞(明治以降の日本人移民が現地で出版した日本語の新聞の総称)に本研究成果が利用される予定である。また、本研究の知見は令和6年度に公開される国会図書館のNDLOCR2で一部利用されており、NDLOCR2では近代書籍に対応した初めてのOCRとなる。
|