研究課題/領域番号 |
15500097
|
研究機関 | 東北大学 |
研究代表者 |
阿曽 弘具 東北大学, 大学院・工学研究科, 教授 (10005522)
|
研究分担者 |
岩村 雅一 東北大学, 大学院・工学研究科, 助手 (80361129)
後藤 英昭 東北大学, 情報シナジーセンター, 助教授 (40271879)
大町 真一郎 東北大学, 大学院・工学研究科, 助教授 (30250856)
|
キーワード | 文字認識 / 文書認識システム / 学習認識システム / 認識手法統合手法 / 信頼性評価 / 図表認識 / 統計的パターン認識 |
研究概要 |
本研究は、最終的には認識率100%の認識システムに自律的に学習していく機能を有する文書認識システムの構築を目指している。自律的な学習は複数の認識アルゴリズムの能力を互いに補完させる統合システムに基礎をおいている。 本年度は、パターン整合法に基礎をおく認識手法に関して、その特徴量空間の内部構造の分析手法を検討した。補完統合させるためには、個々の認識手法による認識結果の信頼性を評価することが必要である。従来の認識手法では、個々の文字種の識別のためにその文字種だけのサンプルをもとに必要な情報を抽出しており、信頼性の評価も識別関数値を基礎にしていた。例えば、未知文字パターンに対して、第1、2候補文字種に関する識別関数値の比で信頼性を評価していた。この比の値が1に近い場合、どちらが正しいとも判断できず、信頼性が低いと判定していたが、1からどのくらい離れていれば信頼できるのかということが明確でなかった。一つの文字種が他と違うと判定するためには、あらかじめサンプルを用いてその判断基準を設定しておくことが必要に思われる。このため、特徴量空間における文字種間の相互関係に関する情報として識別のために必要となりまた重要なものが何であるかを検討してきた。この検討結果は実験的に確認しだい報告する予定である。相互関係情報により特徴量空間の内部構造が把握でき、それに基づいて信頼性判断基準が設定できると考えている。 認識手法の一つであるベーズ予測分布を用いる手法について、字種毎にサンプル数が違うことに起因する偏りに関して一つの結果を得、その補正方法を明らかにした。信頼性判定のための情報としてサンプル数と分布の偏りの推定値が重要であることがわかった。 文書レイアウト解析に関連して連結成分追跡によるグラフ認識手法を既に提案しているが、その追跡手法を高速化する改善を図った。
|