2020 Fiscal Year Research-status Report

Text Recognition of Historical Japanese Documents

Research Project

Project/Area Number	18K19800
Research Institution	Gunma University
Principal Investigator	長井歩群馬大学, 大学院理工学府, 助教 (70375567)
Project Period (FY)	2018-06-29 – 2022-03-31
Keywords	くずし字認識 / 文字認識 / 深層学習 / 翻刻
Outline of Annual Research Achievements	近年公開されている大量のくずし字の画像データを使って学習すると、申請者のシステムも含め95%前後の正解率を叩き出すことができる。その結果、崩し字認識の基礎研究は一段落付いたようにも見える。しかしそれは違う。公開されているくずし字のデータは手書き文字には違いないが、殆どが庶民向の版本なので読みやすいくずし字である。具体的には、漢字より平仮名を好んで使っていたり、変体仮名の種類が少なかったり、くずしの程度が軽かったりする。教育レベルが低い一般大衆にとっても読みやすいように、清書専門の職人が工夫して書いた文字である。それに対し、版本ではない肉筆の文書の崩し字の中には、版本と違い読みにくい文字がたくさんある。それらの多くはプライベートな文書であって、一般大衆向けに書かれたものではないからである。版本のくずし字認識はエキスパートなレベルにまで向上したかもしれないが、肉筆のくずし字認識はその限りではない。実際、短冊や手紙は専門家の間でも最も難関で、登山の初心者がヒマラヤ登山を志すようなものと指摘し、そのため初心者は版本から読むのが良いと勧める専門家もいる。今、くずし字を読む深層学習は版本の文字を95%読めるようになった。我々が次にターゲットとすべきは肉筆のくずし字と言えるだろう。肉筆のくずし字を認識させるには、それを目的としたデータを用意する必要がある。当該年度はそれを自動的に行う方法を開発した。肉筆のくずし字のページ画像と対応するページ単位の翻刻テキストを入力として与えると、くずし字の行画像とその翻刻データのペアを出力するような学習システムを開発した。これは肉筆のくずし字だけから成る一定以上の規模のデータとしては初めてのものである。更に、このくずし字データを従来の公開データと共に別途学習に使うと、従来に比べ4.5%程度正解率が向上した。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 当該年度の研究は、行検出用の深層学習と行認識用の深層学習を組み合わせることによって実現したが、実験に使用しているPCのGPUのメモリが小さすぎて両方のネットワークを同時に乗せることができなかった。そこで、交互にGPUのメモリに乗せては実行するという処理を繰り返している。学習時間も予想以上にかかり、開発の効率が上がらなかった。さらに、当該年度はコロナ禍により大学で作業できない期間があった。これらの理由により開発に手間取り、予定よりも進捗が遅れている。
Strategy for Future Research Activity	まずは当該年度の研究成果を国際会議に投稿することを最優先とする。また、昨年度までの研究成果をまとめて国内会議に投稿したい。
Causes of Carryover	当該年度の研究成果を国際会議で発表するための費用として次年度使用額が生じた。また、昨年度までの研究成果をまとめて国内にて論文投稿する際の投稿費としても使用する予定である。