• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

字形情報・言語情報の統合的利用による歴史的文献資料テキスト化システムの高度化

研究課題

研究課題/領域番号 26730161
研究種目

若手研究(B)

配分区分基金
研究分野 図書館情報学・人文社会情報学
研究機関東京大学

研究代表者

増田 勝也  東京大学, 大学総合教育研究センター, 特任助教 (20512114)

研究期間 (年度) 2014-04-01 – 2018-03-31
研究課題ステータス 完了 (2017年度)
配分額 *注記
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2016年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2015年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2014年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワードOCR / デジタルテキスト化 / 誤り訂正 / 自然言語処理 / デジタルアーカイブ / 近代書籍 / デジタルヒューマニティーズ
研究成果の概要

本研究では近代の文献資料に対するデジタルテキスト化の精度向上を目的として、OCR誤り訂正システムの研究開発を行った。デジタルテキスト化の精度評価および精度向上のための言語モデルのための近代の言語リソースを構築し、文字の字形情報と言語情報を組み合わせてOCR誤り箇所の検出、訂正文字候補の生成、訂正文字の選択を行うシステムを構築し、実際に近代書籍のOCR結果に適用し実証実験を行った。OCR誤り訂正の結果をOCRシステムにフィードバックし、OCRシステム自身の精度向上につながることを確認した。

報告書

(5件)
  • 2017 実績報告書   研究成果報告書 ( PDF )
  • 2016 実施状況報告書
  • 2015 実施状況報告書
  • 2014 実施状況報告書
  • 研究成果

    (3件)

すべて 2016 2015

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (2件)

  • [雑誌論文] Revealing the Modern History of Japanese Philosophy Using Digitization, Natural Language Processing, and Visualization2015

    • 著者名/発表者名
      Katsuya Masuda, Makoto Tanji, Hideki Mima
    • 雑誌名

      Journal of the Japanese Association for Digital Humanities

      巻: 1 号: 1 ページ: 37-43

    • DOI

      10.17928/jjadh.1.1_37

    • NAID

      130005096576

    • ISSN
      2188-7276
    • 関連する報告書
      2015 実施状況報告書
    • 査読あり / オープンアクセス
  • [学会発表] 言語情報と字形情報を用いた近代書籍に対するOCR誤り訂正2016

    • 著者名/発表者名
      増田勝也
    • 学会等名
      人文科学とコンピュータ(じんもんこん)シンポジウム2016
    • 発表場所
      国立国語研究所(東京都立川市)
    • 年月日
      2016-12-10
    • 関連する報告書
      2016 実施状況報告書
  • [学会発表] 大域的情報を用いたOCR文字誤り訂正2015

    • 著者名/発表者名
      増田勝也
    • 学会等名
      言語処理学会第21回年次大会
    • 発表場所
      京都大学(京都府京都市)
    • 年月日
      2015-03-17
    • 関連する報告書
      2014 実施状況報告書

URL: 

公開日: 2014-04-04   更新日: 2019-03-29  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi