• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

文章解析・認識オープンソースOCRopusへの数式認識モジュールの組込み

Research Project

Project/Area Number 21500163
Research InstitutionShinshu University

Principal Investigator

岡本 正行  信州大学, 工学部, 教授 (50109196)

Co-Investigator(Kenkyū-buntansha) 白井 啓一郎  信州大学, 工学部, 助教 (00447723)
Keywordsパターン認識 / 数式認識 / 文書画像処理 / OCR
Research Abstract

光学的文字読取りソフトウェアであるOCRopusに対して数式認識システムの組込みを目的とし,23年度においては,(1)認識対象となる数式位置の自動推定プログラムの検討及び改善,(2)数式を含む文書画像全体の一括認識処理システムの実装を行った.またその成果を国際会議で発表するとともに,試作システムをWEB上で公開した.本システムの公開は今後,科学技術文献を電子化するためのOCR開発に重要な寄与ができるものと考えている.
今年度の具体的な成果について以下に述べる.
1.認識対象となる数式位置の自動推定プログラムの検討及び改善:独立した行として現れるディスプレイ数式に対する手法の開発及び改善と,文章行中に現れるインライン数式に対する手法の検討を行った。
(1)ディスプレイ数式では,昨年度に数式位置の自動推定プログラムを開発したが,本年度はプログラムの改善を行った.具体的には,推定に使用したいくつかの特徴量について,文書の性質にかかわらず一定の結果が出力されるよう改善を図り,入力文書画像への柔軟な対応が可能な手法を構築した.(2)インライン数式については,行の自動切出しプログラムにより得られた行単位の画像に対して,単語らしさの尤度によって数式位置を判定する手法を検討した.
2.認識対象数式を含む文書画像の一括認識処理システムの実装:ディスプレイ数式を対象として,1段組の文書画像の一括認識処理システムを実装した.文書のレイアウト解析処理後に数式位置自動判別機能を組込み,数式部分については当研究室で開発した認識エンジンを組み込むことで一括処理を実現している.また,認識結果は、文字と数式それぞれの認識結果を統合し,文字部分についてはHTML,数式部分についてはLaTeX/MathMLの形式で出力している.

  • Research Products

    (4 results)

All 2011 Other

All Presentation (1 results) Remarks (3 results)

  • [Presentation] Embedding a mathematical OCR module into OCRopus2011

    • Author(s)
      S.Yamazaki, F.Furukori, Q.Zhao, K.Shirai, M.Okamoto
    • Organizer
      IAPR Inter.Conf.on Document Analysis and Recognition (ICDAR)
    • Place of Presentation
      北京,中国
    • Year and Date
      2011-09-20
  • [Remarks] 成果プログラム公開ページ

  • [Remarks] OCRopus用数式認識モジュール

    • URL

      http://syorserv.cs.shinshu-u.ac.jp/src/ocr/index.htm

  • [Remarks] 数式認識エンジン

    • URL

      http://syorserv.cs.shinshu-u.ac.jp/src/ocr/exp.html

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi