研究課題/領域番号 |
14580446
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
情報システム学(含情報図書館学)
|
研究機関 | 信州大学 |
研究代表者 |
岡本 正行 信州大学, 工学部, 教授 (50109196)
|
研究分担者 |
鈴木 昌和 九州大学, 大学院・数理学研究院, 教授 (20112302)
|
研究期間 (年度) |
2002 – 2004
|
研究課題ステータス |
完了 (2004年度)
|
配分額 *注記 |
3,300千円 (直接経費: 3,300千円)
2004年度: 900千円 (直接経費: 900千円)
2003年度: 1,000千円 (直接経費: 1,000千円)
2002年度: 1,400千円 (直接経費: 1,400千円)
|
キーワード | 数式認識 / 文書画像処理 / 文字認識 / パターン認識 |
研究概要 |
本研究では、これまでに当研究室で開発を行なってきた数式認識システムの改良、性能評価実験を行なった。ここでは数式認識性能を定量的に調べるため、ドイツ、エッセン大学との数学文献電子化プロジェクト共同研究で対象とした2種類の数学文献から、正解データベースとなるGround Truthを作成した。また数式中の記号、構造認識精度をそれぞれ自動的に計測するツールを作成した。Ground Truthの作成では文献中に現れるインライン数式(文書行中に現れる数式)とディスプレイ数式(独立した行に印刷されている数式)全てを対象として、Archiv der Mathematik(Arch.と略)から500ページ、数式数15768、Commentarii Mathematici Helvetici(Comment.と略)から200ページ、数式数5704を切り出し、人手で記号、構造認識結果をXML形式で記述した。記号認識実験ではArch.で99.40%、Comment.で98.24%の認識結果を得た。数式構造認識実験では、数式は各種部分式から構成されるため、部分式構造毎に認識性能を評価した。数式は部分式が入れ子構造となって構成されているが、下位の部分式に間違いがある場合はそれを含む上位の部分式も間違いとする厳しい判定条件を用いた。また構造認識性能評価実験では純粋に構造認識部のみの性能を評価するため、記号認識の結果は正しいものを用いた。その結果、部分式毎に多少の違いがあるものの、Arch.で93.61%から100%、数式全体で99.15%、Comment.で90.24%から100%、数式全体で98.91%の認識性能が得られた。この2種類の文献は多くの数学分野を対象としているため様々な数式構造が現れるが、数式の版組み様式は似ている。そこで鈴木が作成した1970年代から2000年代の30編の数学論文467ページ、数式数21056のGround Truthに対しても認識実験を行い95.79%の認識結果を得た。 以上の実験結果から、本研究で開発した数式認識システムは数学文献を電子化するためのOCRとして実用的な精度に近付けたものと確信している。
|