研究概要 |
これまで当研究室で開発を行ってきた数式認識システムについて、以下の点で検討を行ない,新たなシステムを作成し認識実験を行った. (1)認識対象となる数式記号・文字フオントの充実 (2)記号・文字同士の接触、切れをより高精度に処理するためのアルゴリズムの改良 (3)広範囲の行列式,整列式の認識 (4)上つき、下つき等の添字式認識精度の高度化 (5)数式構造認識性能の定量的評価方法の開発 (6)上記(5)のための正答付きデータベース(grand truth)の作成 上記(1)については,共同研究を行っているドイツ、エッセン大学の数学文献のディジタル化プロジェクトで読み取り対象としている文献Archiv der Mathematik vol.60-65から数式記号,特殊フオント等を採取,追加し認識用辞書を構築した.(2)については新たなアルゴリズムを考案しインプリメントしたが,性能が十分でなく今後も検討を行う予定である.(3)については,高精度に行列の行,列の要素数を検出するとともに,省略記号にも対応できる手法を開発し,要素として行列や省略記号を含むものもかなりの精度で認識可能になった.また(4)については,これまで誤認識を起こしていた長い添字式や極端に小さなサイズの添字式の認識精度に向上が見られた.(5)については,部分式毎の認識結果をmathMLで表現し、(6)で作成したデータベースと比較することにより,部分構造式を含む数式認識精度を自動的に算出する手法を開発した.この結果,数式認識アルゴリズムの変更を行ったときは,容易にその効果を確認することができるようになり,これまでの試行錯誤の開発より数段に開発効率を高めることができた.これらの成果は,上記数学文献Archiv der Mathematik vol.60-65に対して再度適用し,ほぼ実用に耐えるだけの認識精度が得られることを確認している.
|