2021 Fiscal Year Research-status Report
Text Recognition of Historical Japanese Documents
Project/Area Number |
18K19800
|
Research Institution | Gunma University |
Principal Investigator |
長井 歩 群馬大学, 大学院理工学府, 助教 (70375567)
|
Project Period (FY) |
2018-06-29 – 2023-03-31
|
Keywords | くずし字認識 / 文字認識 / 深層学習 / 翻刻 |
Outline of Annual Research Achievements |
近年公開されている大量のくずし字の画像データを使って学習すると、申請者のシステムも含め95%前後の正解率を叩き出すことができる。その結果、崩し字認識の基礎研究は一段落付いたようにも見える。しかしそれは違う。公開されているくずし字のデータは手書き文字には違いないが、殆どが庶民向の版本なので読みやすいくずし字である。具体的には、漢字より平仮名を好んで使っていたり、変体仮名の種類が少なかったり、くずしの程度が軽かったりする。教育レベルが低い一般大衆にとっても読みやすいように、清書専門の職人が工夫して書いた文字である。それに対し、版本ではない肉筆の文書の崩し字の中には、版本と違い読みにくい文字がたくさんある。それらの多くはプライベートな文書であって、一般大衆向けに書かれたものではないからである。版本のくずし字認識はエキスパートなレベルにまで向上したかもしれないが、肉筆のくずし字認識はその限りではない。実際、短冊や書簡は専門家の間でも最も難関で、登山の初心者がヒマラヤ登山を志すようなものと指摘し、そのため初心者は版本から読むのが良いと勧める専門家もいる。 現在、くずし字を読む深層学習は版本の文字を95%読めるようになった。現在我々が主要なターゲットとしている肉筆のくずし字については、7割以上程度の正解率である。今後正解率を向上させるための肉筆データだけから成るデータの一般公開も行った。これらの成果についてジャーナルに投稿するための実験データ収集を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
現在、別途取得した科研費の課題に主軸が移っており、エフォート面でも計算機資源の面でもオーバーワークになりかねない状態であること。また、計算機はあっても電源には限りがあるので、思うように計算機を使えなかったという事情もある。無理に使った結果、今年度は2,3回はブレーカーを落としてしまった。その結果、再起動できなくなった計算機もある。
|
Strategy for Future Research Activity |
さらに実験結果を収集してジャーナルへの投稿を行う予定である。
|
Causes of Carryover |
ジャーナルへの掲載料に当てるため。
|
Research Products
(2 results)