• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Annual Research Report

Implementation of supporting system and environment for auto-extracting texts from early-modern printed books

Research Project

Project/Area Number 26280119
Research InstitutionNara Women's University

Principal Investigator

城 和貴  奈良女子大学, 生活環境科学系, 教授 (90283928)

Co-Investigator(Kenkyū-buntansha) 高田 雅美  奈良女子大学, 生活環境科学系, 講師 (20397574)
Project Period (FY) 2014-04-01 – 2017-03-31
Keywords文字認識 / 特徴抽出 / Webアプリケーション / 遺伝的プログラミング
Outline of Annual Research Achievements

本研究課題では近代書籍の自動テキスト化を目的とした学習データの収集を行った。本課題以前に収集した学習データでは、実際の認識システムの学習には全く足らなかったため、まず基本学習データセットを手作業で集め、それを基本辞書とした近代書籍文字用OCRをWeb上で使えるようにし,近代書籍画像を指定すると認識結果を表示し,誤認識と思われる文字に関してはハイライトさせて利用者に正解を教えてもらい,それを学習データとして追加して利用するたびに認識率が良くなっていく近代書籍自動テキスト化支援環境システムを開発した.手作業で集めた基本学習データセットは、近代書籍36社603冊から約1,500種類の文字をそれぞれ出版時期・出版者の異なる6セットを作成し、それを用いて学習させた近代書籍用OCRをベースにした近代書籍自動テキスト化支援環境システムを使って文字種を約2,600種類まで拡張させた。この詳細については論文(近代書籍を対象とした多フォント漢字認識、情報処理学会論文誌数理モデル化と応用、vol.9(2)、pp33-40, 2016)で報告している。また当初の計画にはなかったことであるが、近代書籍文字用OCRは特徴抽出法としてPDCを、識別器としてSVMを使っているが、他の特徴抽出法(荷重方向ヒストグラム、拡張セル)も使ってどの特徴抽出手法がどの文字の誤認識を引き起こすかという分析を行い国際会議で報告した。さらに特定の出版者のフォントが手に入らない場合に備えて、人工知能を用いた特定フォント自動生成の予備実験を行い国内研究会で口頭発表を行った。

Research Progress Status

28年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

28年度が最終年度であるため、記入しない。

Causes of Carryover

28年度が最終年度であるため、記入しない。

Expenditure Plan for Carryover Budget

28年度が最終年度であるため、記入しない。

Research Products

(3 results)

All 2016

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Acknowledgement Compliant: 2 results,  Open Access: 1 results) Presentation (1 results) (of which Invited: 1 results)

  • [Journal Article] 近代書籍を対象とした多フォント漢字認識2016

    • Author(s)
      粟津 妙華, 上坂 和美,高田 雅美, 城 和貴
    • Journal Title

      情報処理学会論文誌数理モデル化と応用

      Volume: 9(2) Pages: 33-40

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Comparison of Feature Extraction Methods for Early-Modern Japanese Printed Character Recognition2016

    • Author(s)
      Kazumi Kosaka, Kaori Fujimoto, Yu Ishikawa, Masami Takata, Kazuki Joe
    • Journal Title

      Proceedings of PDPTA2016

      Volume: Final Edition Pages: 408-414

    • Peer Reviewed / Open Access / Acknowledgement Compliant
  • [Presentation] デジタルコレクション 自動テキスト化への道2016

    • Author(s)
      城 和貴
    • Organizer
      国立国会図書館 デジタルライブラリーカフェ
    • Place of Presentation
      国立国会図書館
    • Year and Date
      2016-11-25
    • Invited

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi