2018 Fiscal Year Research-status Report
Improvement of layout analysis and character area recognition for extracting digital text from modern books
Project/Area Number |
18K18330
|
Research Institution | The University of Tokyo |
Principal Investigator |
増田 勝也 東京大学, 大学総合教育研究センター, 特任助教 (20512114)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | OCR / レイアウト解析 / デジタルテキスト化 / デジタルアーカイブ / 自然言語処理 |
Outline of Annual Research Achievements |
本研究は主に近代の書籍を対象としたデジタルテキスト化の精度向上を目標として、レイアウト解析および文字領域認識の精度向上を目的としている。特に近代書籍特有の原本の悪さやフォントの違い、また特有のレイアウト構造に起因する既存のOCRシステムの誤認識に対し、その文字領域の周辺情報を用いて自動的に訂正することによる精度向上を目的としている。 平成30年度はまず誤り傾向の分析として、既存のOCRシステムの結果に対し文字領域の誤り傾向の集計を行った。認識された文字のうち、文字単位で誤認識となっている文字に対し、どのように誤っているかの分類を行った。結果として、複数文字を一文字と誤認識、一文字を複数文字と誤認識、また近代書籍特有の汚れ等による文字の誤認識などの誤り傾向が分かった。 またそれらの文字誤り傾向の分析結果を用いて、本研究で開発する領域認識誤り訂正システムで用いる訂正アルゴリズムの検討を行った。例えば、複数文字を一文字と誤認識している際には領域の分割を行う必要があるが、その際に利用する文字や領域の大きさ等の周辺の情報および分割の手法、また逆に一文字を複数文字と誤認識している際には同様に領域の結合に利用する周辺情報および結合の手法について検討を行い、実際にプロトタイプシステムとして開発を行った。また実際に訂正を行う際には、どの文字が誤認識であるかについても自動的に認識する必要があり、その点についても言語情報を含めた周辺の情報を用いるアルゴリズムを検討し、実際にプロトタイプシステムの開発を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
既存のOCRシステムの結果を用いたレイアウト解析誤り、文字領域認識誤りの分析については補助人員の作業により当初の計画通り進んでいる。しかしながら、実際の誤り訂正のプロトタイプシステムの開発および正解データの作成については当初の予定よりも遅れが生じている。
|
Strategy for Future Research Activity |
誤り訂正のプロトタイプシステムについては誤り箇所の認識と誤りの訂正の処理を接続し、既存のOCR結果のデータに対し訂正の処理を自動的に行えるよう開発を行う。そのプロトタイプシステムをベースにして、より高精度な領域認識誤り訂正のシステムを開発する。また並行して、正解データや言語データなどのリソースの開発も行っていく。
|
Causes of Carryover |
当初の計画ではデータ作成だけではなく、プログラム開発の補助人員としてアルバイトを雇用する予定だったが、研究代表者が行うアルゴリズムの開発・プログラム開発が遅れており、補助人員を利用して行う開発まで至らなかったためその分の次年度使用額が生じた。 次年度使用額分については、今年度行うことができなかった、プログラム開発の補助人員の雇用に使用する予定である。
|