2002 Fiscal Year Annual Research Report
数学文献電子化のための数式認識手法の改良と性能評価
Project/Area Number |
14580446
|
Research Institution | Shinshu University |
Principal Investigator |
岡本 正行 信州大学, 工学部, 教授 (50109196)
|
Co-Investigator(Kenkyū-buntansha) |
鈴木 昌和 九州大学, 大学院・数理学研究院, 教授 (20112302)
|
Keywords | 数式認識 / 文書画像処理 / 文字認識 / パターン認識 |
Research Abstract |
これまで研究を行ってきた数式認識手法について、以下の点でさらに検討を行なった。 (1)認識対象となる数式記号・文字フォントの充実、 (2)記号・文字同士の接触を切り離すためのアルゴリズムの改良 (3)記号・文字のかすれに対処するための手法の開発 (4)数学文献のレイアウト解析・数式切り出し精度の向上 検討項目(1)については研究代表者の岡本が検討を行ない、現在共同研究中のドイツ、エッセン大学での新たな数学文献の読み取り実験において、同文献中に現れる新規の記号・文字フォントを手動で切り出し辞書に追加した。また(2)については、岡本がこれまでに開発を行った手法の改良を試みたが、接触文字切り離しの性能が十分でないため、さらに来年度も検討を続ける。また本検討項目については、共同研究者の鈴木が文字画像のマッチングに基づく手法を検討しある程度の成果が得られたが、これについても切り分け性能が十分でないため今後も検討を続ける。(3)の文字・記号のかすれの問題は、これまでに開発した分離記号の統合手法を拡張し現在実験を行っている。また(4)の問題については、鈴木がこれまでに開発してきた手法をさらに検討すると共に、岡本も同時にルールベースに基づく手法を開発し実験中である。これらの検討結果は適宜、エッセン大学Michler教授のグループに送り、数学文献の読み取り実験に反映させている。またある程度検討結果がまとまった本年度終盤には、このグループの中心的システム開発者であるNoerenberg助手を日本に招聘し、信州大学と九州大学でこれまでの研究成果および今後の方針について討論を行った。
|
-
[Publications] T.Kanahori: "A Recognition Method of Matrices by Using Variable Block Pattern Elements Generating Rectangular Areas"Graphics Recognition, Lecture Notes in Computer Sciences, Springer. 2390. 320-329 (2002)
-
[Publications] Y.Baba: "An Annotated Corpus and a Grammar Model of Theorem Description Mathematical Knowledge Management"Lecture Notes Computer Sciences, Springer. 2594. 93-104 (2003)
-
[Publications] 中塚 翼: "数式認識性能評価用データベースの作成"科学技術分野における電子的情報処理に関する研究集会資料. 11-13 (2003)
-
[Publications] T.Kanahori: "Detection of Matrices and Segmentation of Matrix Elements in Scanned Images of Scientific Documents"Proceedings of ICDAR2003. (未定).
-
[Publications] A.Nomura: "Detection and Segmentation of Touching Characters in Mathematical Expressions"Proceedings of ICDAR2003. (未定).
-
[Publications] 野村 明弘: "数式中の接触文字の画像マッチングに基づく切り分け法"電子情報通信学会技術研究報告PRMU2002. 243-263. 31-35 (2003)