2019 Fiscal Year Final Research Report
Extracting Knowledge from Japanese Early-Modern Printed Books
Project/Area Number |
17H01829
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Research Field |
Library and information science/Humanistic social informatics
|
Research Institution | Nara Women's University |
Principal Investigator |
Joe Kazuki 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス教育研究センター, 助教 (20814370)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 自動テキスト化 / 深層学習 / CNN / レイアウト解析 / 言語翻訳 |
Outline of Final Research Achievements |
Four results were obtained in this study. First, we integrated the previous recognition methods in 2017, and although there is little training data, we are close to a practical application. The recognition rate of 2,678 Japanese early-modern printed characters was recorded at more than 90%. Next, to increase the training data, we used deep learning to automatically generate unknown early-modern printed character types to be presented in 2018. In addition, in 2019, the existing recognition methods was revamped, and by using deep learning, to get the same as in 2017. In addition, by performing transfer learning, the recognition rate has been increased from around 90% to 98%. We also showed that deep learning can be used for layout analysis, which is essential for practical applications.
|
Free Research Field |
人工知能
|
Academic Significance and Societal Importance of the Research Achievements |
近年個人所有のHDD等記憶メディアが劇的に大容量化し、インターネットを介して自由にデータのアクセスが可能になったことから、紙媒体でしか記録が残されていなかった近代書籍等のアーカイブ化が急速に行われている。しかしながら画像でのアーカイブ化では全文検索が不可能であり、現在のような規格が規定されていなかった頃の活版印刷に対応した自動テキスト化技術の確立は急務の課題である。本研究はその技術の確立を目指したもので、現時点で実用化に極めて近いレベルまで研究が進展している。
|