文書認識の完全自動化

研究課題

研究課題/領域番号	08458072
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	東北大学
研究代表者	阿曽弘具東北大学, 大学院・工学研究科, 教授 (10005522)
研究分担者	後藤英昭東北大学, 情報処理教育センター, 助手 (40271879) 大町真一郎東北大学, 大学院・工学研究科, 助手 (30250856)
研究期間 (年度)	1996 – 1997
研究課題ステータス	完了 (1997年度)
配分額 *注記	4,300千円 (直接経費: 4,300千円) 1997年度: 700千円 (直接経費: 700千円) 1996年度: 3,600千円 (直接経費: 3,600千円)
キーワード	文書認識 / 文字認識 / 印刷文字認識 / 領域理解 / マルチテンプレート
研究概要	本年度の研究では、当初の目的であった。完全自動文書認識システムを完成させるまでに至らなかったが、次の成果を得た。これらを基礎にして展開研究を計画している。 1.文字パターンの特徴量空間である196次元ベクトル空間において、各字種の特徴量の集まりを正2^N面体型特徴領域と2^N面体型特徴領域との共通部分として定め、字種間相互の特徴領域の重なりを調べた。2^N面体型特徴領域はマハラノビス距離による超球型特徴領域の近似であり、線形計画法を用いて重なりを調べるために導入した。調べた結果、1字種の特徴領域と重なる特徴領域を持つ字種数が平均79であることがわかった。これは、単純なマンハッタン距離を用いた正2^N面体型特徴領域だけによるものに較べて約1/5になっているが、まだ、重なりが大きいことを意味している。 2.文字の特徴領域の重なりが類似文字に起因することに着目し、類似文字であるかどうかの判定法を考え、類似文字間の識別法としてその相違部分を重視する方法を考案した。また、低品質文字の認識のため、動的重み付き単純類似度を考え、つぶれ度による文字品質の判定により、品質に応じた識別手法を適用することで、より高精度な認識ができることを明らかにした。 3.日本語文字列の生成確率モデルとして文字trigram-単語trigramの複合モデルを考え、これを用いて誤りを含む認識結果候補文字列からより正しいもの選択する手法を開発した。 4.文書レイアウト解析については、必ずしも長方形ではない文章ブロックを抽出する方法を考案し、実験により検証した。

報告書

(2件)

1997 実績報告書
1996 実績報告書

研究成果
(7件)

すべてその他

すべて文献書誌 (7件)

[文献書誌] 大町真一郎, 阿曽弘具: "品質を考慮した印刷文字認識手法" 情報処理学会論文誌. 38・12. 2490-2498 (1997)
- 関連する報告書
  1997 実績報告書
[文献書誌] 後藤英昭, 塚田仁志, 阿曽弘具: "文書中の非方形文章ブロックの抽出のためのアルゴリズム" 電子情報通信学会論文誌(D・II). J81-DII・1. 212-214 (1998)
- 関連する報告書
  1997 実績報告書
[文献書誌] H. MORI, H. ASO, S. MAKINO: "Robust n-Gram Model of Japanese Character and its Application to Document Recognition" IEICE Trans. Information and Systems. E74D・5. 471-476 (1996)
- 関連する報告書
  1996 実績報告書
[文献書誌] M. SUZUKI, N. KATO, H. ASO, Y. NEMOTO: "A Handprinted Character Recognition System Using Image Transformation Based on Partial Inchination Detection" IEICE Trans. Information and Systems. E79D・5. 504-509 (1996)
- 関連する報告書
  1996 実績報告書
[文献書誌] F. Sun, S. OMACHI, H. ASO: "Precise Selection of Candidates for Handwritten Character Recognition Using Feature Regions" IEICE Trans. Information and Systems. E79D・5. 510-515 (1996)
- 関連する報告書
  1996 実績報告書
[文献書誌] 大町真一郎,孫方,阿曽弘具: "カテゴリー間分布を考慮した文字認識用マルチテンプレート辞書の構成法" 電子情報通信学会論文誌(D-II). J79-D-II・9. 1525-1533 (1996)
- 関連する報告書
  1996 実績報告書
[文献書誌] 大町真一郎,阿曽弘具: "つぶれを考慮した低品質印刷文字の高精度認識" 電子情報通信学会論文誌(D-II). J79D-II・9. 1534-1542 (1996)
- 関連する報告書
  1996 実績報告書

文書認識の完全自動化

研究代表者

阿曽 弘具 東北大学, 大学院・工学研究科, 教授 (10005522)

4,300千円 (直接経費: 4,300千円)

報告書

研究成果

[文献書誌] 大町真一郎, 阿曽弘具: "品質を考慮した印刷文字認識手法" 情報処理学会論文誌. 38・12. 2490-2498 (1997)

関連する報告書

[文献書誌] 後藤英昭, 塚田仁志, 阿曽弘具: "文書中の非方形文章ブロックの抽出のためのアルゴリズム" 電子情報通信学会論文誌(D・II). J81-DII・1. 212-214 (1998)

関連する報告書

[文献書誌] H. MORI, H. ASO, S. MAKINO: "Robust n-Gram Model of Japanese Character and its Application to Document Recognition" IEICE Trans. Information and Systems. E74D・5. 471-476 (1996)

関連する報告書

[文献書誌] M. SUZUKI, N. KATO, H. ASO, Y. NEMOTO: "A Handprinted Character Recognition System Using Image Transformation Based on Partial Inchination Detection" IEICE Trans. Information and Systems. E79D・5. 504-509 (1996)

関連する報告書

[文献書誌] F. Sun, S. OMACHI, H. ASO: "Precise Selection of Candidates for Handwritten Character Recognition Using Feature Regions" IEICE Trans. Information and Systems. E79D・5. 510-515 (1996)

関連する報告書

[文献書誌] 大町真一郎,孫方,阿曽弘具: "カテゴリー間分布を考慮した文字認識用マルチテンプレート辞書の構成法" 電子情報通信学会論文誌(D-II). J79-D-II・9. 1525-1533 (1996)

関連する報告書

[文献書誌] 大町真一郎,阿曽弘具: "つぶれを考慮した低品質印刷文字の高精度認識" 電子情報通信学会論文誌(D-II). J79D-II・9. 1534-1542 (1996)

関連する報告書

阿曽弘具東北大学, 大学院・工学研究科, 教授 (10005522)