Extracting Knowledge from Japanese Early-Modern Printed Books
Project/Area Number |
17H01829
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Research Field |
Library and information science/Humanistic social informatics
|
Research Institution | Nara Women's University |
Principal Investigator |
Joe Kazuki 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス教育研究センター, 助教 (20814370)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Project Status |
Completed (Fiscal Year 2019)
|
Budget Amount *help |
¥15,990,000 (Direct Cost: ¥12,300,000、Indirect Cost: ¥3,690,000)
Fiscal Year 2019: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Fiscal Year 2018: ¥7,280,000 (Direct Cost: ¥5,600,000、Indirect Cost: ¥1,680,000)
Fiscal Year 2017: ¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000)
|
Keywords | 自動テキスト化 / 深層学習 / CNN / レイアウト解析 / 言語翻訳 / デジタルアーカイブ / 文字認識 / テキスト化 / ディープラーニング / 知識処理 / 近代書籍自動テキスト化 / 文語体自動翻訳 |
Outline of Final Research Achievements |
Four results were obtained in this study. First, we integrated the previous recognition methods in 2017, and although there is little training data, we are close to a practical application. The recognition rate of 2,678 Japanese early-modern printed characters was recorded at more than 90%. Next, to increase the training data, we used deep learning to automatically generate unknown early-modern printed character types to be presented in 2018. In addition, in 2019, the existing recognition methods was revamped, and by using deep learning, to get the same as in 2017. In addition, by performing transfer learning, the recognition rate has been increased from around 90% to 98%. We also showed that deep learning can be used for layout analysis, which is essential for practical applications.
|
Academic Significance and Societal Importance of the Research Achievements |
近年個人所有のHDD等記憶メディアが劇的に大容量化し、インターネットを介して自由にデータのアクセスが可能になったことから、紙媒体でしか記録が残されていなかった近代書籍等のアーカイブ化が急速に行われている。しかしながら画像でのアーカイブ化では全文検索が不可能であり、現在のような規格が規定されていなかった頃の活版印刷に対応した自動テキスト化技術の確立は急務の課題である。本研究はその技術の確立を目指したもので、現時点で実用化に極めて近いレベルまで研究が進展している。
|
Report
(4 results)
Research Products
(8 results)