マルチスケール解析に基づく一般画像中の文字列抽出手法の研究
Project/Area Number |
09750477
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
計測・制御工学
|
Research Institution | The University of Tokyo |
Principal Investigator |
本谷 秀堅 東京大学, 大学院・工学系研究科, 助手 (60282688)
|
Project Period (FY) |
1997 – 1998
|
Project Status |
Completed (Fiscal Year 1998)
|
Budget Amount *help |
¥2,000,000 (Direct Cost: ¥2,000,000)
Fiscal Year 1998: ¥1,100,000 (Direct Cost: ¥1,100,000)
Fiscal Year 1997: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | コンピュータビジョン / 文字認識 / パターン認識 / 形状解析 / マルチスケール / 初期視覚 / 形状記述 / 画像認識 |
Research Abstract |
本研究の目的は、一般の画像中より文字を抽出する手法を開発することである。文字は、局所的には線図形であるが大局的には塊状の図形であることが多い。そこで、画像中の図形の局所的な形状および大局的な形状を捉える手法を開発し、局所的には線・大局的には塊であるような図形を抽出することを考えた。 昨年度は、画像をガウス関数でぼかし、その分散を変化させたときの画像の変化に着目することで、図形の局所的形状および大局的形状の双方を捉える手法を提案した。 今年度は、昨年度提案した手法の数理的研究を継続して行ない、さらに、実画像を用いた実験により本手法の特性の解析を行なった。今年度の研究により新たに得られた知見をまとめると、次のようになる。 1. 実画像を用いた実験により、画像中の線図形はガウス関数によるぼかしにより変形することが確認された。この現象に関する数理的考察により、この線図形の変形が各位置における曲線の曲率の大きさに依存することを導出した。また変形の「速度」はぼかしの程度が進むに連れて大きくなることも分かった。 2. 画像のぼかしにより文字図形の局所・大局の階層構造を捉えるためには、上記「線図形の変形」を考慮する必要がある。線図形の移動方向、および移動速度を考慮した、図形形状の階層的記述手法を開発し、コンピュータに実装した。 3. 本手法により、画像中の文字を、その大きさとともに抽出することができることを確認した。本手法の特性を調べた結果、漢字など複雑な形状を持つ文字の抽出率は高いが、数字の1やアルファベットのSのように単純な形状の文字の抽出率が低いことが分かった。単純な形状の文字を抽出するには、その形状以外の特徴を併用する必要がある。文字認識などより高次の処理との件用をいかに行なうかが今後の課題である。 本研究の目的である、一般画像中の文字自動認識のための、文字図形抽出手法を提案することができた。今後は文字認識などの高次の処理を組み合わせ、より動的で頑健なシステムを構築することが課題になるであろうと考える。
|
Report
(2 results)
Research Products
(12 results)