2010 Fiscal Year Annual Research Report
文書解析・認識オープンソースOCRopusへの数式認識モジュールの組込み
Project/Area Number |
21500163
|
Research Institution | Shinshu University |
Principal Investigator |
岡本 正行 信州大学, 工学部, 教授 (50109196)
|
Co-Investigator(Kenkyū-buntansha) |
白井 啓一郎 信州大学, 工学部, 助教 (00447723)
|
Keywords | パターン認識 / 数式認識 / 文書画像処理 / OCR |
Research Abstract |
文字読取りソフトウェアであるOCRopusに対しての数式認識システムの組込みを目的とし,22年度においては,(1)数式認識システムのモジュール化の検討,(2)認識対象となる数式位置の自動推定と切出しの検討,を行った. (1) 数式認識システムのモジュール化:昨年度までで,大きく分けて4つのモジュールの後半処理の二つ,(c)数式構造解析,(d)認識結果のLaTeX/MathMLでの出力,がモジュール化できたため,今年度は前半処理の二つ,(a)数式中の文字・記号切出し(接触文字分離機能を含む),(b)文字・記号認識,のモジュール化を行った. (2) 認識対象となる数式位置の自動推定と切出し:独立した行として現れるディスプレイ数式と,文章行中に現れるインライン数式に対する手法を検討した. (i)ディスプレイ数式では,切出し自動判別プログラムの開発と性能実験を行った.前処理の文書ラインの切り出しも重要となるため,OCRopusに用意されている複数の切り出しアルゴリズムの評価もあわせて行った.(ii)インライン数式は未だ検討段階であるが,OCRopusの機能を利用しての文章の単語ごとの切出し,および文字らしさの尤度を用いた判別法の開発を予定している.
|
Research Products
(2 results)