• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 研究成果報告書

計算機による古文書の自動的な活字化

研究課題

  • PDF
研究課題/領域番号 18K19800
研究種目

挑戦的研究(萌芽)

配分区分基金
審査区分 中区分61:人間情報学およびその関連分野
研究機関群馬大学

研究代表者

長井 歩  群馬大学, 大学院理工学府, 助教 (70375567)

研究期間 (年度) 2018-06-29 – 2023-03-31
キーワードくずし字認識 / 文字認識 / 深層学習 / 翻刻
研究成果の概要

行単位に分割された崩し字画像を入力に,認識したテキストを出力する深層学習のシステムを開発した.3文字の文字列認識が課題のPRMUアルコンで41チーム中2位,ページ単位の認識が課題のKaggleのコンテストで293チーム中6位となった.
さらに,肉筆の崩し字認識率向上を目的に,肉筆の崩し字のページ画像と対応するページ単位の翻刻テキストを入力に,くずし字の行画像とその翻刻テキストのペアを出力するシステムを開発した.これは肉筆のくずし字だけから成る一定以上の規模のデータとしては初めてである.この崩し字データを従来の公開データと共に別途学習に使うと,従来に比べ4.5%程度正解率が向上した.

自由記述の分野

人工知能

研究成果の学術的意義や社会的意義

本研究の意義は,崩し字で書かれた版本や写本を計算機で自動的に活字化(翻刻)することである.江戸時代の古文書はその99%以上が翻刻されておらず,最後に残された最大の文字文化である.しかし多くの現代人にはそれを容易には読みこなせない問題がある.古文書を読むためには専門的な知識と訓練を要し,現状では圧倒的に人手が足りていない.この問題を解消すべく,計算機による自動的な古文書の翻刻に貢献した.現在では版本に対しては95%前後の正解率を叩き出すが、版本ではない肉筆の古文書の崩し字には、読みにくい文字がまだまだ沢山ある。これらの難易度の高い崩し字の認識も視野に見据え、正解率を高める1つの方法を提案した。

URL: 

公開日: 2024-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi