2019 Fiscal Year Research-status Report
Text Recognition of Historical Japanese Documents
Project/Area Number |
18K19800
|
Research Institution | Gunma University |
Principal Investigator |
長井 歩 群馬大学, 大学院理工学府, 助教 (70375567)
|
Project Period (FY) |
2018-06-29 – 2021-03-31
|
Keywords | 崩し字 / 文字認識 / 深層学習 / 翻刻 / 言語モデル |
Outline of Annual Research Achievements |
本研究の目的は,崩し字で書かれた版本や写本を計算機で自動的に活字化(翻刻)することである.江戸時代の古文書はその99%以上が翻刻されておらず,最後に残された最大の文字文化である.しかし多くの現代人にはそれを容易には読みこなせない問題がある.古文書を読むためには専門的な知識と訓練を要し,現状では圧倒的に人手が足りていない.この問題を解消すべく,計算機によって自動的に古文書を翻刻することが目的である. 2年目の研究成果は,行単位に分割された崩し字の文字列画像を入力として,テキストの文字列を出力する深層学習のシステムを改良したことと,入力画像がページ単位の場合にも対応できるようにしたことである.前者については,1年目に行単位の画像を入力としたシステムを開発したが,乱数の種を変えた上でそのシステムで複数回実行すると,出力として複数のテキスト候補を得られる.それらの候補の情報と言語モデルとを組み合わせて最も自然なテキストを出力し,そのテキストを正解文字列と仮定して次の学習に活用することによって学習精度を向上するという一連の学習サイクルを繰り返すことによって正解率を最大10%程度向上させた.後者については,ページ単位での認識,言い換えると複数行に渡る崩し字を認識できるようなシステムを開発した.行単位での認識は申請者の知る限り最高級の認識性能に既に達しているので,入力であるページ画像を複数の行に分割する部分を開発し,行分割された画像を行認識のシステムに引き渡すことによってページ単位での認識を実現した.この成果は国際会議ICFHR2020への採録が決定している.また,3文字の文字列認識を課題としたPRMUアルコンで41チーム中2位,ページ単位の認識を課題としたKaggleの崩し字認識コンテストで293チーム中6位になるという成果を得た.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
崩し字の認識には様々な障害がある割りには色々な技術を試すことができ,行単位の崩し字の文字列認識としては現在最高の認識性能を達成できているため,おおむね順調と判断します. 崩し字認識の障害とは,例えば学習用データが限られていることや,大量のテキストデータの入手も困難であることである.物体認識や文字認識などの他の分野では学習用データが整備され,認識システムの開発者は開発に専念することができる.それに対し崩し字認識においては,1文字単位の崩し字認識はともかく,それ以外の崩し字認識はあまり整備が及んでいない.そこで,申請者は入手できた学習用データを目的に合わせて加工している.さらに,現在整備されている1文字の崩し字認識用の学習データは平仮名が中心で,漢字や片仮名のデータは限られている.また,これらのデータの大半は版本,つまり出版された本の文字データである.出版された本の多くは一般庶民にも読めるように読みやすく書かれている.そこで申請者は,出版物ではない手書きの古文書で漢字を中心とするものを学習データとして利用できるようにすべく,独自に抽出作業を同時進行で進めて入る最中である. そのような状況の中,本命の研究である崩し字の認識にて,行を単位とした文字列認識とはいえ,現在最高の認識精度を達成できたのでおおむね順調と判断する.
|
Strategy for Future Research Activity |
今後は,出版物ではない漢字を中心とする手書きの崩し字による行単位のデータを一般公開し,その上でこれまでの出版物をソースとする平仮名中心のデータとの間で認識精度などの比較を行いたい. これまでに公開されている崩し字のデータは殆どは1文字の崩し字認識用のデータで,殆どは出版物をソースとしている.さらに,一般庶民にも読めるように読みやすく書かれている.具体的には1字1字が独立していて,平仮名が多い傾向がある.しかし出版された本は古文書の一部に過ぎない.出版物ではない古文書も歴史的価値として見逃すことはできない.そこで,出版物ではない一点ものの古文書のデータをある程度まとめて公開したい.現在対象としている古文書の多くは武家文書なので漢字が中心である.また,前後の文字同士がくっ付き合って1字1字の境界が初心者には不明確である.このような特徴がある手書きの崩し字の方が,出版物の崩し字に比べて認識の難易度が高いと予想される.そこで,手書きの崩し字データを公開するとともに,出版物の崩し字との比較を行いたい.
|
Research Products
(1 results)