研究課題/領域番号 |
26730161
|
研究機関 | 東京大学 |
研究代表者 |
増田 勝也 東京大学, 大学総合教育研究センター, 特任助教 (20512114)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | デジタルアーカイブ / デジタルテキスト化 / OCR / 誤り訂正 / 自然言語処理 / デジタルヒューマニティーズ |
研究実績の概要 |
本研究はOCRシステムが出力した文字認識結果に対し自然言語処理技術を利用したOCR誤り訂正を行うことにより、書籍などの画像に対する高度なデジタルテキスト化システムを構築することを目的としている。システムの主な対象は近代の活字文書(近代書籍)であり、現代の活字とは異なるフォントや異体字等が使用されていることに起因する文字置換誤りの訂正を主に行うことでデジタルテキスト化の精度を向上させる。 平成27年度は昨年度に引き続き 1)局所的な言語情報 2)大域的な言語情報 3)字形情報 の三種類の情報をそれぞれを単独で利用したOCR誤り訂正システムの研究開発を行ない精度の向上を図った。局所的な言語情報としては各文字出現に対するその周辺の言語情報と言語モデル、大域的な言語情報としては対象とする文書集合全体での各文字のその全文字出現の周辺の言語情報、字形情報としてはOCRシステムから出力される認識文字候補およびその認識の確信度を利用し、文字誤りの判定・訂正文字候補の生成・候補文字からの訂正文字の推定を行うシステムの研究開発を行なった。各種情報を単独で利用した際の誤り訂正の精度を向上させ、さらに三種類の情報を組み合わせてOCR誤り訂正を行うシステムを開発した。 またこれらのシステム開発に使用する言語リソース・テスト時の正解データの作成を行った。対象は国立国会図書館によりデジタル化された近代の書籍データであり、市販のOCRシステムを実行した結果に対し人手により訂正を行なうことで、OCR誤り箇所の検出および正解となるテキストデータの作成を行なった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
OCR誤り訂正システムの研究開発については昨年度から引き続き開発を行ない誤り訂正に対する個々の手法の高精度化を進めている。しかしながらそれらの複数の手法を統合的に利用した誤り訂正手法についてはシステムの開発は行っているものの精度の観点では目立った成果を得られておらず、さらなる研究開発が必要である。また言語リソースの作成については国立国会図書館の書籍のデジタル化データに対し市販のOCRソフトによる処理の後、人手による修正を行うことでデータ構築を進めているが当初の予定よりは遅れが生じている。
|
今後の研究の推進方策 |
OCR誤り訂正システムの研究開発については今年度までに開発した複数の誤り訂正手法を組み合わせて統合的に利用した誤り訂正手法の精度向上に関する研究を行う。また、誤り訂正の結果をOCRシステムにフィードバックすることによるOCRシステム自身の精度向上についても実験を行う。言語リソースの作成については引き続き国立国会図書館のデータを用いて人手によるデータの作成を行う。その際に使用するOCRシステムとしてはGoogleがAPIを公開するなどOCR技術自体の発展により新しい高精度なOCRシステムが利用可能となっているため、それらを考慮に入れ比較実験等を行いながらデータの構築を行う。
|
次年度使用額が生じた理由 |
当初の予定では言語データの構築をアルバイトなどによる書籍のスキャン・OCR処理・処理結果の人手による修正にて行う予定であった。しかしながら、画像データは国立国会図書館の協力により既にデジタル化が行われた画像データを使用することが可能となり、またその後のOCR処理・処理結果の作業も当初の予定よりも遅れが生じているため、その分の次年度使用額が生じた。
|
次年度使用額の使用計画 |
次年度使用額分に関してはデータの構築を行うアルバイトなどの人件費として使用する。特に国立国会図書館のデータが使用可能となり書籍スキャンの作業が必要なくなったため、その分をOCR処理結果の人手による修正に配分し、より多くのデータを構築する予定である。それ以外については当初の計画通り、プログラミングを行うアルバイト学生などの人件費、研究成果発表のための論文投稿費、学会参加費・旅費などに使用する予定である。
|