• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

近代書籍からの知の抽出

Research Project

Project/Area Number 17H01829
Research InstitutionNara Women's University

Principal Investigator

城 和貴  奈良女子大学, 生活環境科学系, 教授 (90283928)

Co-Investigator(Kenkyū-buntansha) 高田 雅美  奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽  滋賀大学, データサイエンス教育研究センター, 助教 (20814370)
Project Period (FY) 2017-04-01 – 2020-03-31
Keywordsデジタルアーカイブ / 文字認識 / 深層学習 / 言語翻訳
Outline of Annual Research Achievements

今年度は近代書籍用OCRのデータ収集を効率よく行うためのWebアプリ(平成26年度科研Bで試験実装)の実装を行った。また、近代書籍用文字認識エンジンは昨年度まで利用していた手法(3種類の特徴抽出手法と2種類の識別手法によるアンサンブル学習法)を一新し、新たにCNNと呼ばれるディープラーニングニューラルネットを使って実験を行ったところ、同じデータセットであれば同程度の認識率を出すことが判明した。この手法は特徴抽出も学習データによって最適化されるため、学習データが増えたときにはより良い性能を出すことが期待される。また、約2,000種類の近代書籍文字画像6セットを5セットを学習データ、1セットをテストデータで交差検定した結果は旧手法も新手法も認識率は90%程度であったのに対し、明朝体等の現代印字フォント30種類を加えてCNNに学習させたところ、98%の認識率を記録したので、これを国際会議で発表した。また、帝国議会議事録の自動テキスト化に関しては、昨年度国内研究会で発表を行った手法を実際の議事録に適用して概ね良い結果が得られたことを国際会議で発表した。ディープラーニングを用いた未知字体生成に関しては、ニューラルネットの構成方法と学習パラメータの最適化に関して国際会議で発表を行った。近代書籍の文語体文章を現代口語体に自動変換するサブテーマでは、Convsec2secを利用したもので、対象を森鴎外の作品に絞って学習を行い、その結果を帝国議会議事録データに適用してみたが、十分な性能が得られず、まだ検討の必要があることが判明した。

Research Progress Status

令和元年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和元年度が最終年度であるため、記入しない。

  • Research Products

    (4 results)

All 2019

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 3 results) Presentation (1 results)

  • [Journal Article] Applying CNNs to Early-Modern Printed Japanese Character Recognition2019

    • Author(s)
      Suzuka Yasunami, Norie Koiso, Yuki Takemoto, Yu Ishikawa, Masami Takata, Kazuki Joe
    • Journal Title

      The 2019 International Conference on Parallel and Distributed Processing Techniques and Applications

      Volume: 1 Pages: 189 - 195

    • Peer Reviewed / Open Access
  • [Journal Article] Structure of Neural Network Automatically Generating Fonts for Early-Modern Japanese Printed Books2019

    • Author(s)
      Yuki Takemoto, Yu Ishikawa, Masami Takata, Kazuki Joe
    • Journal Title

      The 2019 International Conference on Parallel and Distributed Processing Techniques and Applications

      Volume: 1 Pages: 182 - 188

    • Peer Reviewed / Open Access
  • [Journal Article] Layout Analysis using Semantic Segmentation for Imperial Meeting Minutes2019

    • Author(s)
      Sayaka Iida, Yuki Takemoto, Yu Ishikawa, Masami Takata, Kazuki Joe
    • Journal Title

      The 2019 International Conference on Parallel and Distributed Processing Techniques and Applications

      Volume: 1 Pages: 135 - 141

    • Peer Reviewed / Open Access
  • [Presentation] 近代書籍における低出現頻度文字種の獲得2019

    • Author(s)
      藤田未希, 竹本有紀, 石川由羽, 髙田雅美, 城和貴
    • Organizer
      情報処理学会数理モデル化と問題解決研究会

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi