• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 研究成果報告書

字形情報・言語情報の統合的利用による歴史的文献資料テキスト化システムの高度化

研究課題

  • PDF
研究課題/領域番号 26730161
研究種目

若手研究(B)

配分区分基金
研究分野 図書館情報学・人文社会情報学
研究機関東京大学

研究代表者

増田 勝也  東京大学, 大学総合教育研究センター, 特任助教 (20512114)

研究期間 (年度) 2014-04-01 – 2018-03-31
キーワードOCR / デジタルテキスト化 / 誤り訂正 / 自然言語処理 / デジタルアーカイブ / 近代書籍
研究成果の概要

本研究では近代の文献資料に対するデジタルテキスト化の精度向上を目的として、OCR誤り訂正システムの研究開発を行った。デジタルテキスト化の精度評価および精度向上のための言語モデルのための近代の言語リソースを構築し、文字の字形情報と言語情報を組み合わせてOCR誤り箇所の検出、訂正文字候補の生成、訂正文字の選択を行うシステムを構築し、実際に近代書籍のOCR結果に適用し実証実験を行った。OCR誤り訂正の結果をOCRシステムにフィードバックし、OCRシステム自身の精度向上につながることを確認した。

自由記述の分野

自然言語処理

URL: 

公開日: 2019-03-29  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi