研究課題
基盤研究(B)
数式を含む科学技術文書の光学読み取りを行う為には、文章部分と数式部分では記述規則が異なるため、1行の文章中に含まれて数式の部分(通常 "in line math"と呼ばれる)を正確に切り出すことが重要な課題である。その上で文章部分と数式部分をそれぞれの記述規則に従って認識・補正を行う。その為、本年度は1.文章中の数学記号(英数字やギリシャ文字を含む)のみを選択して認識する高速な文字認識エンジンの開発、2.それと日本語文字認識エンジンを組みあわせて日本語領域と数式領域を分離するアルゴリズムの開発、を行った。既存のどの日本語OCRソフトと組みあわせても、全体の認識速度を低下させずに正確に日本語・数式領域の分離が出来るようにする為に、数学記号認識エンジンは高速性が重要であり、また領域分離アルゴリズムでは利用する日本語OCRエンジンに依存しない手法が必要である。1.の数学記号認識エンジンでは、特徴ベクトルの成分を検索キーとする絞り込み検索の手法を導入することにより、辞書にない文字を明確にリジェクトする機能をもった高速な数学記号の認識エンジンの開発を行った。また、日本語文字の仮名や漢字の扁旁なども認識する機能も持たせた。2.の日本語・数式領域切り出しは、各文字切り出し候補位置に数式パスと日本語パスを設定し、それぞれにコストを与えて、最短経路問題に帰着して動的計画法で解く。その際、日本語パスのコスト計算には個別の日本語文字認識エンジンに依存する認識コストなどの情報は用いず、認識結果のリストと文字画像の幾何学的特徴との一致度、及び連結成分の認識結果に含まれる数学記号や扁旁情報のみを用いた。数式領域と日本語領域の分離を行うと同時に、日本語領域中の文字単位への切り分けも同時に行うアルゴリズムになっている。
すべて その他
すべて 文献書誌 (5件)