2004 Fiscal Year Annual Research Report
数学文献電子化のための数式認識手法の改良と性能評価
Project/Area Number |
14580446
|
Research Institution | Shinshu University |
Principal Investigator |
岡本 正行 信州大学, 工学部, 教授 (50109196)
|
Co-Investigator(Kenkyū-buntansha) |
鈴木 昌和 九州大学, 大学院・数理学研究院, 教授 (20112302)
|
Keywords | 数式認識 / 文書画像処理 / 文字認識 / パターン認識 |
Research Abstract |
本研究の最終年度として、これまでに開発を行なった数式認識システムの見直し、性能評価実験を行なった。ここでは数式認識性能を定量的に調べるため、ドイツ、エッセン大学との数学文献電子化プロジェクト共同研究で対象とした2種類の数学文献から正解データベースとなるGround Truthを作成し、自動的に記号・数式認識精度を計測するツールを作成した。Ground Truthの作成では文献中に現れるインライン数式(文書行中に現れる数式)とディスプレイ数式(独立した行に印刷されている数式)全てを対象として、Archiv der Mathematik(Arch.と略)から500ページ、数式数15768、Commentarii Mathematici Helvetici (Comment.と略)から200ページ、数式数5704を切り出し、人手で記号・数式認識結果をXML形式で記述した。記号認識実験ではArch.で99.40%、Comment.で98.24%の認識結果を得た。数式構造認識実験では、数式は各種部分式から構成されるため、部分式構造毎に認識性能を評価した。数式は部分式が入れ子構造となって構成されているが、下位の部分式に間違いがある場合はそれを含む上位の部分式も間違いとする厳しい判定条件を用いた。また性能評価実験では純粋に構造認識部の性能を評価するため、記号認識の結果は正しいものを用いた。認識性能評価結果は部分式毎に多少の違いがあるものの、Arch.で93.61%から100%、数式全体で99.15%、Comment.で90.24%から100%、数式全体で98.91%の認識性能が得られた。この2種類の文献は多くの数学分野を対象としているため様々な数式構造が現れるが、数式の版組み様式は似ている。そこで鈴木が作成した1970年代から2000年代の30編の数学論文467ページ、数式数21056のGround Truthに対しても認識実験を行い95.79%.の認識結果を得た。 以上の実験結果から、本研究で開発した数式認識システムは数学文献を電子化するためのOCRとして実用的な精度に近付けたものと確信している。
|
Research Products
(2 results)