研究課題/領域番号 |
18K19800
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 群馬大学 |
研究代表者 |
長井 歩 群馬大学, 大学院理工学府, 助教 (70375567)
|
研究期間 (年度) |
2018-06-29 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
2020年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2019年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2018年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | くずし字認識 / 文字認識 / 深層学習 / 翻刻 / 崩し字 / 言語モデル / データ拡大 / 古文書 |
研究成果の概要 |
行単位に分割された崩し字画像を入力に,認識したテキストを出力する深層学習のシステムを開発した.3文字の文字列認識が課題のPRMUアルコンで41チーム中2位,ページ単位の認識が課題のKaggleのコンテストで293チーム中6位となった. さらに,肉筆の崩し字認識率向上を目的に,肉筆の崩し字のページ画像と対応するページ単位の翻刻テキストを入力に,くずし字の行画像とその翻刻テキストのペアを出力するシステムを開発した.これは肉筆のくずし字だけから成る一定以上の規模のデータとしては初めてである.この崩し字データを従来の公開データと共に別途学習に使うと,従来に比べ4.5%程度正解率が向上した.
|
研究成果の学術的意義や社会的意義 |
本研究の意義は,崩し字で書かれた版本や写本を計算機で自動的に活字化(翻刻)することである.江戸時代の古文書はその99%以上が翻刻されておらず,最後に残された最大の文字文化である.しかし多くの現代人にはそれを容易には読みこなせない問題がある.古文書を読むためには専門的な知識と訓練を要し,現状では圧倒的に人手が足りていない.この問題を解消すべく,計算機による自動的な古文書の翻刻に貢献した.現在では版本に対しては95%前後の正解率を叩き出すが、版本ではない肉筆の古文書の崩し字には、読みにくい文字がまだまだ沢山ある。これらの難易度の高い崩し字の認識も視野に見据え、正解率を高める1つの方法を提案した。
|