研究課題/領域番号 |
15500097
|
研究機関 | 東北大学 |
研究代表者 |
阿曽 弘具 東北大学, 大学院・工学研究科, 教授 (10005522)
|
研究分担者 |
大町 真一郎 東北大学, 大学院・工学研究科, 助教授 (30250856)
後藤 英昭 東北大学, 情報シナジーセンター, 助教授 (40271879)
岩村 雅一 大阪府立大学, 大学院・工学研究科, 助手 (80361129)
|
キーワード | 文字認識 / 文書認識システム / 学習認識システム / 認識手法統合手法 / 信頼性評価 / 図表認識 / 統計的パターン認識 |
研究概要 |
本研究は、複数の認識アルゴリズムの能力を互いに補完させた統合システムで自律的に学習する機能をもたせた文書認識システムの構築を目指している。 本年度は、与えられた文字特徴量空間の内部構造の分析方法を具体的に検討した。文字特徴量空間において各字種の特徴量は互いに近接した集団をなしており、その集団間の分離の度合および重なり方が内部構造を与える。また、内部構造の把握をもとにした整合性評価関数の可変パラメータを設定した。日本語字種3134種について特徴量を表す特徴ベクトルを準備した。(現時点で考案した分析方法を実現するプログラムを作成しており、具体的分析作業は次年度になる予定である。また、個々の文字認識結果の信頼性向上を目指す可変パラメータの学習方法、字種毎に異なる適切な認識アルゴリズムを自動選択する手法の検討は次年度にまわさざるを得なくなった。) 類似文字識別のために複合識別器システム(Multiple Classifiers System)を開発した。一つの特徴量とそれを非線形変換した特徴量、2値化した特徴量の3種類の特徴量を考え、それぞれの特徴量に関する識別器を学習で構成し、その識別結果を統合するものである。類似文字のペア8種類に対する認識実験で高精度であることを確認した。 本学習認識システムのための文書レイアウト解析に関しては、スクリーントーンの除去手法を開発した。カラーの印刷文書では同一色がスクリーントーンで印刷されるため、通常の文字抽出手法ではそれがノイズとなり、誤抽出がおきやすかった。この問題を解決する手法を考案した。さらに、掛け時計の数字のように孤立した文字の抽出手法を開発した。文書以外の情景画像中の文字は孤立して現れることが多く、また、雑誌などの表紙や目次に現れる文字、専門書における数式などの添字なども孤立しているとみなせ、多様な文書画像からの文字抽出を可能にした。
|