研究課題
若手研究(B)
本研究では近代の文献資料に対するデジタルテキスト化の精度向上を目的として、OCR誤り訂正システムの研究開発を行った。デジタルテキスト化の精度評価および精度向上のための言語モデルのための近代の言語リソースを構築し、文字の字形情報と言語情報を組み合わせてOCR誤り箇所の検出、訂正文字候補の生成、訂正文字の選択を行うシステムを構築し、実際に近代書籍のOCR結果に適用し実証実験を行った。OCR誤り訂正の結果をOCRシステムにフィードバックし、OCRシステム自身の精度向上につながることを確認した。
自然言語処理