研究課題/領域番号 |
07458071
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
情報システム学(含情報図書館学)
|
研究機関 | 北陸先端科学技術大学院大学 |
研究代表者 |
木村 正行 北陸先端科学技術大学院大学, 情報科学研究科, 教授 (50006219)
|
研究分担者 |
大町 真一郎 東北大学, 工学研究科, 助手 (30250856)
|
研究期間 (年度) |
1995 – 1997
|
研究課題ステータス |
完了 (1997年度)
|
配分額 *注記 |
6,500千円 (直接経費: 6,500千円)
1997年度: 600千円 (直接経費: 600千円)
1996年度: 900千円 (直接経費: 900千円)
1995年度: 5,000千円 (直接経費: 5,000千円)
|
キーワード | 辞書分類 / 文字認識 / 高速化 / 構造情報 / 構造パラメータ / 文字の構造情報 / 印刷文字 / 大分類 / 文字画像ヒストグラム / 高速高精度 / 標準パターン / 高速・高精度認識 |
研究概要 |
文字の構造に関する様々なパラメータを用いて、文字認識用辞書を小規模の多数のクラスに効率よく分類する方法について研究し、初期の目的を達成することができた。まず、文字の構造パラメータを抽出して、そのパラメータが辞書の分類に適しているか否かを判定する最適化問題を考案した。これにより種々の有用な構造パラメータの選択を可能とした。ついで、複数の構造パラメータを用いて辞書を自動的により規模の小さいクラスに分類していくアルゴリズムを考案すると共に誤分類を避ける統計的処理方法を導入した。これにより、例えば、JIS第一水準の3300余の文字(記号類を含む)を対象とする場合には、通常の文字認識精度より一桁高い分類精度で分類(クラス分け)された辞書の平均の規模を元の辞書の1/5程度に縮小することは容易にできる見通しを得た。誤分類を避けるために、グレイゾーンを設けてこの領域に入る字種については、分類された双方のクラスに共通に含まれるようにしている。このために、分類された辞書の平均の大きさが元の辞書の規模の1/5以下となるためには、分類された辞書の総数は64個程度となる。だだし、未知入力文字がこれらの辞書の一つに分類されるための計算量は、一回の距離計算(例えば、単純類似度計算)に比して遥かに少ない。したがって、本研究による辞書の分類法をパターン整合法を用いる認識方法に適用すれば、認識速度がほぼ(元の時辞書の規模)/(分類された辞書の平均規模)倍早くなることが期待される。 なお、本研究で開発された辞書分類法は、国有特許として申請中であり、このため論文としての発表はその後になる予定である。
|