研究課題/領域番号 |
18K19800
|
研究機関 | 群馬大学 |
研究代表者 |
長井 歩 群馬大学, 大学院理工学府, 助教 (70375567)
|
研究期間 (年度) |
2018-06-29 – 2023-03-31
|
キーワード | くずし字認識 / 文字認識 / 深層学習 / 翻刻 |
研究実績の概要 |
近年公開されている大量のくずし字の画像データを使って学習すると、申請者のシステムも含め95%前後の正解率を叩き出すことができる。その結果、崩し字認識の基礎研究は一段落付いたようにも見える。しかしそれは違う。公開されているくずし字のデータは手書き文字には違いないが、殆どが庶民向の版本なので読みやすいくずし字である。具体的には、漢字より平仮名を好んで使っていたり、変体仮名の種類が少なかったり、くずしの程度が軽かったりする。教育レベルが低い一般大衆にとっても読みやすいように、清書専門の職人が工夫して書いた文字である。それに対し、版本ではない肉筆の文書の崩し字の中には、版本と違い読みにくい文字がたくさんある。それらの多くはプライベートな文書であって、一般大衆向けに書かれたものではないからである。版本のくずし字認識はエキスパートなレベルにまで向上したかもしれないが、肉筆のくずし字認識はその限りではない。実際、短冊や書簡は専門家の間でも最も難関で、登山の初心者がヒマラヤ登山を志すようなものと指摘し、そのため初心者は版本から読むのが良いと勧める専門家もいる。 現在、くずし字を読む深層学習は版本の文字を95%読めるようになった。現在我々が主要なターゲットとしている肉筆のくずし字については、7割以上程度の正解率である。今後正解率を向上させるための肉筆データだけから成るデータの一般公開も行った。これらの成果についてジャーナルに投稿するための実験データ収集を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
現在、別途取得した科研費の課題に主軸が移っており、エフォート面でも計算機資源の面でもオーバーワークになりかねない状態であること。また、計算機はあっても電源には限りがあるので、思うように計算機を使えなかったという事情もある。無理に使った結果、今年度は2,3回はブレーカーを落としてしまった。その結果、再起動できなくなった計算機もある。
|
今後の研究の推進方策 |
さらに実験結果を収集してジャーナルへの投稿を行う予定である。
|
次年度使用額が生じた理由 |
ジャーナルへの掲載料に当てるため。
|