1998 Fiscal Year Annual Research Report
科学技術文書の為のOCR(光学文字読み取り)システムの開発研究
Project/Area Number |
10558056
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Kyushu University |
Principal Investigator |
鈴木 昌和 九州大学, 大学院数理学研究科, 教授 (20112302)
|
Co-Investigator(Kenkyū-buntansha) |
山形 秀明 リコー, 情報通信研究所, 第31研究室係長研究
立川 道義 リコー, 情報通信研究所, 第31研究室室長
福田 亮治 大分大学, 工学部, 助教授 (70238492)
江島 俊明 九州工業大学, 情報工学部, 教授 (00124553)
玉利 文和 福岡教育大学, 教育学部, 教授 (70036937)
|
Keywords | 光学文字認識 / OCR / 数式認識 / ヤグメンテーション |
Research Abstract |
数式を含む科学技術文書の光学読み取りを行う為には、文章部分と数式部分では記述規則が異なるため、1行の文章中に含まれて数式の部分(通常 "in line math"と呼ばれる)を正確に切り出すことが重要な課題である。その上で文章部分と数式部分をそれぞれの記述規則に従って認識・補正を行う。その為、本年度は 1.文章中の数学記号(英数字やギリシャ文字を含む)のみを選択して認識する高速な文字認識エンジンの開発、 2.それと日本語文字認識エンジンを組みあわせて日本語領域と数式領域を分離するアルゴリズムの開発、 を行った。既存のどの日本語OCRソフトと組みあわせても、全体の認識速度を低下させずに正確に日本語・数式領域の分離が出来るようにする為に、数学記号認識エンジンは高速性が重要であり、また領域分離アルゴリズムでは利用する日本語OCRエンジンに依存しない手法が必要である。 1.の数学記号認識エンジンでは、特徴ベクトルの成分を検索キーとする絞り込み検索の手法を導入することにより、辞書にない文字を明確にリジェクトする機能をもった高速な数学記号の認識エンジンの開発を行った。また、日本語文字の仮名や漢字の扁旁なども認識する機能も持たせた。 2.の日本語・数式領域切り出しは、各文字切り出し候補位置に数式パスと日本語パスを設定し、それぞれにコストを与えて、最短経路問題に帰着して動的計画法で解く。その際、日本語パスのコスト計算には個別の日本語文字認識エンジンに依存する認識コストなどの情報は用いず、認識結果のリストと文字画像の幾何学的特徴との一致度、及び連結成分の認識結果に含まれる数学記号や扁旁情報のみを用いた。数式領域と日本語領域の分離を行うと同時に、日本語領域中の文字単位への切り分けも同時に行うアルゴリズムになっている。
|
Research Products
(5 results)
-
[Publications] M.Sha.: "On-Line Recognition of Handwriting Mathematical Formulas via Networks" Proceedings of Third Asian Technology Conference in Mathematics,Springer. 271-279 (1998)
-
[Publications] K.Inoue: "Optical Recognition of Printes Mathmatical Documents" Proceedings of Third Asian Technology Conference in Mathematics,Springer. 280-289 (1998)
-
[Publications] S.Nouzumi: "Optical Recognition System of Printed Japanese Mathematical Documents." Proceedings of Third LAPR Workshop on Document Analysis. 197-200 (1998)
-
[Publications] 能隅進一: "高速性を重視した数学記号認識とその数式を含む日本語印刷文書認識への応用" 電子情報通信学会技術研究報告. 98・136. 1-8 (1998)
-
[Publications] 業偉: "ストロークの相互関係を用いたオンライン手書き数式認識" 電子情報通信学会技術研究報告. 98・136. 9-16 (1998)