研究課題/領域番号 |
18K18330
|
研究機関 | 京都大学 |
研究代表者 |
増田 勝也 京都大学, 学術情報メディアセンター, 研究員 (20512114)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | OCR / レイアウト解析 / デジタルテキスト化 / デジタルアーカイブ / 自然言語処理 |
研究実績の概要 |
本研究は主に近代の書籍を対象としたデジタルテキスト化の精度向上を目標として、レイアウト解析および文字領域認識の精度向上を目的としている。特に近代書籍特有の原本の悪さやフォントの違い、また特有のレイアウト構造に起因する既存のOCRシステムの文字領域に関する誤認識に対し、その文字領域の周辺情報を用いて自動的に訂正することにより、それを用いて再度OCRを行うことによる精度向上を目的としている。 令和2年度は昨年度行ったOCR結果における文字領域の認識誤りの傾向の分析をベースに、領域認識誤り訂正の訂正アルゴリズムの検討を行い、周辺の文字領域の大きさ・位置情報などを用いて自動的に行うシステムの研究開発を行った。アルゴリズムとしては、まずすでに認識されている文字領域が適切な文字領域であるかを判定し、その後誤りであるとした文字領域に対して、どのような種類の誤りであるかを判定した上で実際に修正を行うこととしている。文字領域の誤り判定においては、誤りである文字は一文中に少数であるという仮定のもと周辺の文字領域の大きさなどを用いて判定を行う。また、その大きさの異なり方を用いてどのような種類の誤りであるかを判定し、一文字を複数文字として誤認識している場合の文字領域の統合や逆に複数文字を一文字として誤認識している場合の文字領域の分割の要否、および修正後の文字領域の大きさ・位置などを推定する。これらについて実際にシステムとして開発を行ってきた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
研究代表者の異動およびそれに伴う研究時間の減少などにより、データセットの構築、システムの研究開発ともに遅れが生じている。
|
今後の研究の推進方策 |
今後はこれまでの分析及び現在構築しているシステムをベースに、より高精度な領域認識誤り訂正のシステムを開発する。また並行して、正解データや言語データなどのリソースの開発も行っていく。
|
次年度使用額が生じた理由 |
当初の計画ではプログラム開発の補助人員としてアルバイトを雇用する予定だったが、研究代表者が行うアルゴリズムの開発・プログラム開発が遅れており、また研究代表者の異動や新型コロナウィルス感染症の感染拡大等の影響により、補助人員を利用して行う開発まで至らなかったためその分の次年度使用額が生じた。 次年度使用額分については、プログラム開発の発注に使用する予定である。
|