• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

計算機による古文書の自動的な活字化

研究課題

研究課題/領域番号 18K19800
研究種目

挑戦的研究(萌芽)

配分区分基金
審査区分 中区分61:人間情報学およびその関連分野
研究機関群馬大学

研究代表者

長井 歩  群馬大学, 大学院理工学府, 助教 (70375567)

研究期間 (年度) 2018-06-29 – 2023-03-31
研究課題ステータス 完了 (2022年度)
配分額 *注記
2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
2020年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2019年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2018年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
キーワードくずし字認識 / 文字認識 / 深層学習 / 翻刻 / 崩し字 / 言語モデル / データ拡大 / 古文書
研究成果の概要

行単位に分割された崩し字画像を入力に,認識したテキストを出力する深層学習のシステムを開発した.3文字の文字列認識が課題のPRMUアルコンで41チーム中2位,ページ単位の認識が課題のKaggleのコンテストで293チーム中6位となった.
さらに,肉筆の崩し字認識率向上を目的に,肉筆の崩し字のページ画像と対応するページ単位の翻刻テキストを入力に,くずし字の行画像とその翻刻テキストのペアを出力するシステムを開発した.これは肉筆のくずし字だけから成る一定以上の規模のデータとしては初めてである.この崩し字データを従来の公開データと共に別途学習に使うと,従来に比べ4.5%程度正解率が向上した.

研究成果の学術的意義や社会的意義

本研究の意義は,崩し字で書かれた版本や写本を計算機で自動的に活字化(翻刻)することである.江戸時代の古文書はその99%以上が翻刻されておらず,最後に残された最大の文字文化である.しかし多くの現代人にはそれを容易には読みこなせない問題がある.古文書を読むためには専門的な知識と訓練を要し,現状では圧倒的に人手が足りていない.この問題を解消すべく,計算機による自動的な古文書の翻刻に貢献した.現在では版本に対しては95%前後の正解率を叩き出すが、版本ではない肉筆の古文書の崩し字には、読みにくい文字がまだまだ沢山ある。これらの難易度の高い崩し字の認識も視野に見据え、正解率を高める1つの方法を提案した。

報告書

(6件)
  • 2022 実績報告書   研究成果報告書 ( PDF )
  • 2021 実施状況報告書
  • 2020 実施状況報告書
  • 2019 実施状況報告書
  • 2018 実施状況報告書
  • 研究成果

    (3件)

すべて 2021 2019 その他

すべて 学会発表 (2件) (うち国際学会 2件) 備考 (1件)

  • [学会発表] Generation of a Large-Scale Line Image Dataset with Ground Truth Texts from Page-Level Autograph Documents2021

    • 著者名/発表者名
      Ayumu Nagai
    • 学会等名
      International Conference on Neural Information Processing (ICONIP 2021)
    • 関連する報告書
      2021 実施状況報告書
    • 国際学会
  • [学会発表] On the Improvement of Recognizing Single-line Strings of Japanese Historical Cursive2019

    • 著者名/発表者名
      Ayumu Nagai
    • 学会等名
      15th International Conference on Document Analysis and Recognition
    • 関連する報告書
      2019 実施状況報告書
    • 国際学会
  • [備考] くずし字の肉筆データ(ground truth付き)

    • URL

      https://gadget.inf.gunma-u.ac.jp/dl/autograph.tar.gz

    • 関連する報告書
      2021 実施状況報告書

URL: 

公開日: 2018-07-25   更新日: 2024-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi