2018 Fiscal Year Research-status Report
Text Recognition of Historical Japanese Documents
Project/Area Number |
18K19800
|
Research Institution | Gunma University |
Principal Investigator |
長井 歩 群馬大学, 大学院理工学府, 助教 (70375567)
|
Project Period (FY) |
2018-06-29 – 2021-03-31
|
Keywords | 崩し字 / 文字認識 / 深層学習 / 翻刻 / データ拡大 / 言語モデル |
Outline of Annual Research Achievements |
本研究の目的は,崩し字で書かれた版本や写本を計算機で自動的に活字化(翻刻)することである.江戸時代の古文書はその99%以上が翻刻されておらず,最後に残された最大の文字文化である.しかし多くの現代人にはそれを容易には読みこなせない問題がある.古文書を読むためには専門的な知識と訓練を要し,現状では圧倒的に人手が足りていない.この問題を解消すべく,計算機によって自動的に古文書を翻刻することが目的である. 1年目の研究成果は,既に行単位に分割された崩し字の文字列の画像を入力として,テキストの文字列を出力する深層学習のシステムを開発したことである.このシステムは,申請者が知る限り最高の認識性能を達成した.近年,崩し字認識の研究事例が増えてきつつあるが,その殆どは1文字単位に分割された崩し字の画像を入力としている.しかし崩し字は前後の文字が連結していることが多く,1文字単位への分割自体が非常に難易度の高い問題である.申請者はこの問題を避けるべく,1行の崩し字の文字列を入力の単位とした.その他にも様々な工夫を導入した.出現頻度の少ない文字の学習効率を上げるために,そのような文字のデータを人工的に加工して増やしたり(データ拡大),画像データとは別に膨大なテキストの情報を用いて認識精度を上げたり(言語モデルの導入)などである.また,古文書特有の2文字が合体した字(合字)を,合字としてではなく2文字として学習させた場合の認識精度や,誤認識を起こしやすい文字の組み合わせについても解明した.この成果は国際会議ICDAR2019への採録が決定している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
崩し字の認識には様々な障害がある割りには色々な技術を試すことができ,現在最高の認識性能を達成できたため,おおむね順調と判断します. 崩し字認識の障害とは,例えば学習用データが限られていることや,大量のテキストデータの入手も困難であることである.物体認識や文字認識などの他の分野では学習用データが整備され,認識システムの開発者は開発に専念することができる.それに対し崩し字認識においては,1文字単位の崩し字認識はともかく,それ以外の崩し字認識はあまり整備が及んでいない.そこで,申請者は入手できた学習用データを目的に合わせて加工している.その加工に要する手間暇もかなりのものである.さらに,現在整備されている1文字の崩し字認識用の学習データはひらがなが中心で,漢字やカタカナのデータは限られている.そこで,申請者は漢字を中心とする古文書を学習データとして利用できるようにすべく,独自に抽出作業を同時進行で進めて入る最中である. そのような状況の中,本命の研究である崩し字の認識にて,行を単位とした文字列認識とはいえ,現在最高の認識精度を達成できたことは望外の進捗である.
|
Strategy for Future Research Activity |
今後は複数行の古文書の画像を,行単位に分離するシステムの開発を行う計画である. 1年目は,行を単位とした崩し字の文字列認識で現在最高の認識性能を達成できた.その成果を活かすべく,一般の古文書の画像を入力として,行単位に分割した崩し字を出力するような認識システムの開発を行う予定である.そのようなシステムを開発できれば,出力として得られる行単位の崩し字を,1年目に開発した文字列認識システムにて認識させることによって,高い精度で認識できることが期待できる.今後開発する行単位への分離も,深層学習にて開発を進める予定である. また,漢字を中心とする古文書を学習データとして利用できるようにしたいと考えている.最近の崩し字認識の研究はひらがなが中心なので,漢字を中心とした崩し字の認識にもそのまま適用できるのか,一抹の不安がある.そこで漢字を中心とする古文書を対象に,確認する必要があると考えている.そのためのデータを整備したい.
|
Causes of Carryover |
1年目の成果を報告する国際会議ICDAR2019への旅費や参加費などに使用するため,次年度使用額が生じています.
|