2001 Fiscal Year Annual Research Report
科学技術文書の為のOCR(光学文字読み取り)システムの開発研究
Project/Area Number |
10558056
|
Research Institution | KYUSHU UNIVERSITY |
Principal Investigator |
鈴木 昌和 九州大学, 大学院・数理学研究院, 教授 (20112302)
|
Co-Investigator(Kenkyū-buntansha) |
福田 亮治 大分大学, 工学部, 助教授 (70238492)
玉利 文和 福岡教育大学, 教育学部, 教授 (70036937)
|
Keywords | 数式認識 / 文字認識 / レイアウト解析 / 文書電子化 |
Research Abstract |
本年度は、これまでに開発してきたシステムの評価実験を行いながら、各種の例外的な場合に対応できるように、一層安定した認識手法の開発を行った。 昨年までの研究による仮想リンクネットワークを用いた数式構文解析は、文字認識の影響を受けにくいものであったが、まだ十分ではなく、ときに大きく数式構造をとり間違うことがあった。文字・記号の誤認識による隣接文字間の添え字判定の誤りが全体の数式構造解析に大きな影響を与える。そこで、本年度は、文字認識の結果を統計的にしか使わない、Center-Bandを利用する方法を加えたことで、文字の誤認識の悪影響を吸収し構造解析の精度の更なる向上が得られた。Center-Bandを取得するために比較的に認識率の高い英数字の認識結果を統計的に利用し、その後は個別の文字認識結果を用いずに添え字判定を行うことが出来ることを実験で示した。 他方、OCRでは同じ誤認識の修正が繰り返し現れる傾向があり、電子化作業の効率化の1つの障害になる。この問題を解決するため、認識実行時に対象文書中の文字・記号画像についてクラスタリングをおこなう手法を開発し、実験評価を行った。クラスタごとに多数決をとって文字認識の結果を確定することにより、文字・記号の認識率の向上も見られた。テキスト領域に対しては、言語情報を利用した誤認識の自動補正を行う手法が有効であるが、数式中では同様には行かない。認識実行時に文字画像をクラスタリングして篩いにかけ、クラスタ毎に認識結果を定める手法が、数式中の文字の誤認識自動補正する、1つの有効な手法になることを確認した。また、クラスタ単位での修正をおこなうことで、誤認識修正作業の効率化に著しい効果が得られることが評価実験で明らかになった。
|
-
[Publications] Y.Eto, M.Suzuki: "Mathematical Formula Recognition Using Virtual Link Network"Proceedings of the Sixth International Conference on Document Analysis and Recognition, Seattle, IEEE Computer Society Press. 430-437 (2001)
-
[Publications] T.Kanahori, M.Suzuki: "A Recognition Method of Matrices by Using Variable Block Pattern Elements Generating Rectangular Areas"Proceedings of the Fourth IAPR International Workshop on Graphics Recognition. 455-469 (2001)
-
[Publications] 金堀利洋, 鈴木昌和: "可変ブロックパターンによる矩形領域分割を用いた行列の認識"信学技法. PRMU2000-201. 1-6 (2001)
-
[Publications] 江藤裕子, 鈴木昌和: "仮想リンク・ネットワークを用いた数式認識"信学技法. PRMU2000-201. 7-14 (2001)
-
[Publications] 田畑耕一, 福田亮治, 鈴木昌和: "2次元ワープを併用したオンライン英数字・数学記号認識"信学技法. PRMU2000-201. 23-30 (2001)
-
[Publications] 中山優幸, 福田亮治, 鈴木昌和, 玉利文和: "数学記号の特徴を用いた数式の水平分割による数式構造解析"信学技法. PRMU2000-201. 15-22 (2001)