1999 Fiscal Year Annual Research Report
Project/Area Number |
10874021
|
Research Institution | Fukuoka University of Education |
Principal Investigator |
玉利 文和 福岡教育大学, 教育学部, 教授 (70036937)
|
Co-Investigator(Kenkyū-buntansha) |
桑野 博 福岡教育大学, 教育学部, 助教授 (50036886)
市ノ瀬 慎一 福岡教育大学, 教育学部, 教授 (30203102)
上村 英樹 福岡教育大学, 教育学部, 教授 (00036906)
白石 正人 福岡教育大学, 教育学部, 助教授 (70216183)
岩元 隆 福岡教育大学, 教育学部, 助教授 (30232713)
|
Keywords | 数式認識 / OCR / ボトムアップ / トツプダウン / 数式構造解析 |
Research Abstract |
スキャナー等で読まれた日本語または英語の文書は画像がある程度鮮明であれば,市販のOCR(Optical Character Recginition)でほとんど誤認識をおこすこともなく読み取ることができる。しかし,数式を含む数学の教科書となると話は別である。現在数式を含んだ文書画像において数式部分を認識してくれるOCRはまだ実用化されていない。そこで,本研究グループは,数式を認識出来るOCRの実用化を目指している。数式は基準線上の文字および基準線上の文字を親文字とする下付き添え字や上付き添え字からなる。数式認識では,基準線上の標準文字とそれらに付随する添え字を区別することが最大の課題である。もちろん,ある出版社の特定の数学の教科書に限定すれば,そこから得られるフォントに関する大きさや通常文字と添え字の位置情報を利用すれば,十分実用化に耐えるOCRシステムは可能である。しかし,このように,出版社個別対応のOCRの実現にはデータ収集のために多くの時間と費用を要する。そこで,汎用的なシステムが必要となる。本年度の研究で得られた主な成果を以下に述べる。 数式構造解析の手法としては,ボトムアップの手法もあるが,本研究では,数学記号の特徴に注目しトップダウンの手法を用いている。数式内の文字間は上下,添字,水平等の接続関係があり,どのような複雑な数式も1つ1つの文字間はこれらの接続関係にある。添字式などの添字の部分にある文字の並びもまた数式であり,そのような数式本体を構成する1つ1つの数式をブロック化し,再帰的に数式構造の解析を行っている。具体的には数式内の分数線,∫,Σ等の上下左右で数式ブロックに区切り,それぞれの領域をまた再帰的に区切る。区切られた領域は簡単な数式となり構造の解析が容易となる。また解析の誤りの影響がそれぞれのブロック内ですむと言う利点がある。
|
Research Products
(5 results)
-
[Publications] 能隅進一: "高速性を重視した数学記号認識とその数式を含む日本語印刷文書認識への応用"信学技法PRMU98. 136. 1-8 (1998)
-
[Publications] 白石正人: "WWWサーバにおける組織外アクセスとその最大コネクション数推定法"福岡教育大学紀要. 48. 100-114 (1999)
-
[Publications] 八尋剛規: "複数のWebサーバを用いた実習内容の提示"日本産業技術教育学会第41回全国大会講演要旨集. 64 (1998)
-
[Publications] 白石正人: "ベクトル空間モデルにおける基準単語間の類似度について"電気関係学会九州支部大会(第51回連合大会)講演論文集. 273 (1998)
-
[Publications] 呂暁: "新聞記事データベースを対象とした接続詞の統計的分析"日本産業技術教育学会、第12回九州支部大会講演要旨集. 33-34 (1999)