• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

数学文献電子化のための数式認識手法の改良と性能評価

研究課題

研究課題/領域番号 14580446
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 情報システム学(含情報図書館学)
研究機関信州大学

研究代表者

岡本 正行  信州大学, 工学部, 教授 (50109196)

研究分担者 鈴木 昌和  九州大学, 大学院・数理学研究院, 教授 (20112302)
研究期間 (年度) 2002 – 2004
研究課題ステータス 完了 (2004年度)
配分額 *注記
3,300千円 (直接経費: 3,300千円)
2004年度: 900千円 (直接経費: 900千円)
2003年度: 1,000千円 (直接経費: 1,000千円)
2002年度: 1,400千円 (直接経費: 1,400千円)
キーワード数式認識 / 文書画像処理 / 文字認識 / パターン認識
研究概要

本研究では、これまでに当研究室で開発を行なってきた数式認識システムの改良、性能評価実験を行なった。ここでは数式認識性能を定量的に調べるため、ドイツ、エッセン大学との数学文献電子化プロジェクト共同研究で対象とした2種類の数学文献から、正解データベースとなるGround Truthを作成した。また数式中の記号、構造認識精度をそれぞれ自動的に計測するツールを作成した。Ground Truthの作成では文献中に現れるインライン数式(文書行中に現れる数式)とディスプレイ数式(独立した行に印刷されている数式)全てを対象として、Archiv der Mathematik(Arch.と略)から500ページ、数式数15768、Commentarii Mathematici Helvetici(Comment.と略)から200ページ、数式数5704を切り出し、人手で記号、構造認識結果をXML形式で記述した。記号認識実験ではArch.で99.40%、Comment.で98.24%の認識結果を得た。数式構造認識実験では、数式は各種部分式から構成されるため、部分式構造毎に認識性能を評価した。数式は部分式が入れ子構造となって構成されているが、下位の部分式に間違いがある場合はそれを含む上位の部分式も間違いとする厳しい判定条件を用いた。また構造認識性能評価実験では純粋に構造認識部のみの性能を評価するため、記号認識の結果は正しいものを用いた。その結果、部分式毎に多少の違いがあるものの、Arch.で93.61%から100%、数式全体で99.15%、Comment.で90.24%から100%、数式全体で98.91%の認識性能が得られた。この2種類の文献は多くの数学分野を対象としているため様々な数式構造が現れるが、数式の版組み様式は似ている。そこで鈴木が作成した1970年代から2000年代の30編の数学論文467ページ、数式数21056のGround Truthに対しても認識実験を行い95.79%の認識結果を得た。
以上の実験結果から、本研究で開発した数式認識システムは数学文献を電子化するためのOCRとして実用的な精度に近付けたものと確信している。

報告書

(4件)
  • 2004 実績報告書   研究成果報告書概要
  • 2003 実績報告書
  • 2002 実績報告書
  • 研究成果

    (21件)

すべて 2005 2003 2002 その他

すべて 雑誌論文 (12件) 文献書誌 (9件)

  • [雑誌論文] 大量の印刷数式画像を用いた数式認識システムの性能評価2005

    • 著者名/発表者名
      北原卓, 仲正幸, 岡本正行
    • 雑誌名

      電子情報通信学会技術研究報告 PRMU2004-212-230

      ページ: 31-36

    • NAID

      110003314500

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 実績報告書 2004 研究成果報告書概要
  • [雑誌論文] 英文数学文書の正解付き文字・記号画像データベース2005

    • 著者名/発表者名
      野村明弘, 内田誠一, 鈴木昌和
    • 雑誌名

      電子情報通信学会技術研究報告 PRMU2004-212-230

      ページ: 37-42

    • NAID

      10015557140

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 実績報告書 2004 研究成果報告書概要
  • [雑誌論文] Performance Evaluation of a Mathematical Formula Recognition System with a Large Scale of Printed Formula Images2005

    • 著者名/発表者名
      T.Kitahara
    • 雑誌名

      IEICE Technical Report PRMU2004-212-230

      ページ: 31-36

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] A Ground-Truthed Mathematical Character and Symbol Image Database2005

    • 著者名/発表者名
      A.Nomura
    • 雑誌名

      IEICE Technical Report PRMU2004-212-230

      ページ: 37-42

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Detection and Segmentation of Touching Characters in Mathematical Expressions2003

    • 著者名/発表者名
      A.Nomura, K.Michishita S.Uchida, M.Suzuki
    • 雑誌名

      Proceedings of ICDAR2003

      ページ: 126-130

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Detection of Matrices and Segmentation of Matrix Elements in Scanned Images of Scientific Documents2003

    • 著者名/発表者名
      T.Kanahori, M.Suzuki
    • 雑誌名

      Proceedings of ICDAR2003

      ページ: 433-437

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] 数式認識システムについての一考察2003

    • 著者名/発表者名
      中塚 翼, 仲正幸, 岡本正行
    • 雑誌名

      「科学情報の自動処理とその応用をめぐる諸問題」研究集会資料

      ページ: 30-33

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Detection and Segmentation of Touching Characters in Mathematical Expressions2003

    • 著者名/発表者名
      A.Nomura
    • 雑誌名

      Proceedings of ICDAR2003

      ページ: 126-130

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Detection of Matrices and Segmentation of Matrix Elements in Scanned Images of Scientific Documents2003

    • 著者名/発表者名
      T.Kanahori
    • 雑誌名

      Proceedings of ICDAR2003

      ページ: 433-437

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] A Discussion on Mathematical Formula Recognition System2003

    • 著者名/発表者名
      T.Nakatsuka
    • 雑誌名

      Report on Problems on Automatic Processing of Scientific Information and Its Applications

      ページ: 30-33

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] 数式認識性能評価用データベースの作成2002

    • 著者名/発表者名
      中塚 翼, 仲正幸, 岡本正行
    • 雑誌名

      科学技術分野における電子的情報処理に関する研究集会資料

      ページ: 11-13

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Ground Truth for Performance Evaluation of Mathematical Formula Recognition2002

    • 著者名/発表者名
      T.Nakatsuka
    • 雑誌名

      Report on Electronic Information Processing in the Scientific and Engineering Field

      ページ: 11-13

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [文献書誌] A.Nomura: "Detection and Segmentation of Touching Characters in Mathematical Expressions"Proceedings of ICDAR2003. Vol.1. 126-130 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] T.Kanahori: "Detection of Matrices and Segmentation of Matrix Elements in Scanned Images of Scientific Documents"Proceedings of ICDAR2003. Vol.1. 433-437 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] 中塚 翼: "数式認識システムについての一考察"「科学情報の自動処理その応用をめぐる諸問題」研究集会資料. 30-33 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] T.Kanahori: "A Recognition Method of Matrices by Using Variable Block Pattern Elements Generating Rectangular Areas"Graphics Recognition, Lecture Notes in Computer Sciences, Springer. 2390. 320-329 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Y.Baba: "An Annotated Corpus and a Grammar Model of Theorem Description Mathematical Knowledge Management"Lecture Notes Computer Sciences, Springer. 2594. 93-104 (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 中塚 翼: "数式認識性能評価用データベースの作成"科学技術分野における電子的情報処理に関する研究集会資料. 11-13 (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] T.Kanahori: "Detection of Matrices and Segmentation of Matrix Elements in Scanned Images of Scientific Documents"Proceedings of ICDAR2003. (未定).

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] A.Nomura: "Detection and Segmentation of Touching Characters in Mathematical Expressions"Proceedings of ICDAR2003. (未定).

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 野村 明弘: "数式中の接触文字の画像マッチングに基づく切り分け法"電子情報通信学会技術研究報告PRMU2002. 243-263. 31-35 (2003)

    • 関連する報告書
      2002 実績報告書

URL: 

公開日: 2002-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi