研究課題/領域番号 |
26730161
|
研究種目 |
若手研究(B)
|
配分区分 | 基金 |
研究分野 |
図書館情報学・人文社会情報学
|
研究機関 | 東京大学 |
研究代表者 |
増田 勝也 東京大学, 大学総合教育研究センター, 特任助教 (20512114)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
研究課題ステータス |
完了 (2017年度)
|
配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2016年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2015年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2014年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | OCR / デジタルテキスト化 / 誤り訂正 / 自然言語処理 / デジタルアーカイブ / 近代書籍 / デジタルヒューマニティーズ |
研究成果の概要 |
本研究では近代の文献資料に対するデジタルテキスト化の精度向上を目的として、OCR誤り訂正システムの研究開発を行った。デジタルテキスト化の精度評価および精度向上のための言語モデルのための近代の言語リソースを構築し、文字の字形情報と言語情報を組み合わせてOCR誤り箇所の検出、訂正文字候補の生成、訂正文字の選択を行うシステムを構築し、実際に近代書籍のOCR結果に適用し実証実験を行った。OCR誤り訂正の結果をOCRシステムにフィードバックし、OCRシステム自身の精度向上につながることを確認した。
|