Reconstructing Knowledge from Early-Modern Books
Project/Area Number |
20H04483
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Nara Women's University |
Principal Investigator |
Jo Kazuki 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス学系, 助教 (20814370)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥17,680,000 (Direct Cost: ¥13,600,000、Indirect Cost: ¥4,080,000)
Fiscal Year 2022: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2021: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
Fiscal Year 2020: ¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000)
|
Keywords | デジタルアーカイブ / 文字認識 / レイアウト解析 / ディープラーニング / ニューロ翻訳 / 近代書籍文字認識 / 深層距離学習 / 近代文語体自動翻訳 / CRAFT / 解像度ピラミッド / 自動テキスト化 / 自動翻訳 / 機械学習 / 近代文語体現代口語体自動翻訳 / 深層学習 / 低出現頻度文字クローラ / 汎用レイアウト解析 / 相互翻訳 |
Outline of Research at the Start |
本研究グループはこれまでに近代書籍文字認識手法と近代文語体現代口語体相互自動翻訳手法、特定の近代書籍に特化したレイアウト解析手法に関する基礎研究を行ってきた。本研究では、低出現頻度文字クローラを利用した近代書籍文字認識、ニューラル機械翻訳による近代文語体現代口語体相互自動翻訳、複数のレイアウト解析技術をハイブリッドに融合した近代書籍用レイアウト解析の三研究課題に取りくむ。さらにこれらの研究成果で実際に「近代書籍からの知の再構築」ができることを示すために、米国スタンフォード大学フーバー研究所で整備が進められている邦字新聞デジタルコレクションに本研究成果を適用する。
|
Outline of Final Research Achievements |
In early-modern printed character recognition, we proposed a method suitable for multi-column, multi-heading publications such as newspapers in layout analysis and confirmed its effectiveness. In the recognition part, we implemented a method to retrieve training data by crawling, and built an environment that can collect training data hundreds of times faster than human workers can do it manually. We also established a method to artificially create character types not found in the data of specific early-modern book publishers using GAN. Furthermore, by changing the recognition engine from CNN to deep metric learning, we confirmed a recognition rate of over 99%, thereby completing our research on early-modern printed character recognition. For neural translation from early-modern literary style to present colloquial style, we prepared 60,000 training data pairs and showed that the Transformer is capable of translating with sufficient accuracy.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究成果は画像としてアーカイブ化された近代書籍のテキスト化を自動的に行えることを示したもので、テキスト化された近代文語体の文章を現代口語体に自動翻訳することで、近代書籍の知を再構成して利用することが可能となる。現在スタンフォード大学フーバー研究所でアーカイブ化が進められている邦字新聞(明治以降の日本人移民が現地で出版した日本語の新聞の総称)に本研究成果が利用される予定である。また、本研究の知見は令和6年度に公開される国会図書館のNDLOCR2で一部利用されており、NDLOCR2では近代書籍に対応した初めてのOCRとなる。
|
Report
(4 results)
Research Products
(15 results)