• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

文書認識の完全自動化

研究課題

研究課題/領域番号 08458072
研究種目

基盤研究(B)

配分区分補助金
応募区分一般
研究分野 知能情報学
研究機関東北大学

研究代表者

阿曽 弘具  東北大学, 大学院・工学研究科, 教授 (10005522)

研究分担者 後藤 英昭  東北大学, 情報処理教育センター, 助手 (40271879)
大町 真一郎  東北大学, 大学院・工学研究科, 助手 (30250856)
研究期間 (年度) 1996 – 1997
研究課題ステータス 完了 (1997年度)
配分額 *注記
4,300千円 (直接経費: 4,300千円)
1997年度: 700千円 (直接経費: 700千円)
1996年度: 3,600千円 (直接経費: 3,600千円)
キーワード文書認識 / 文字認識 / 印刷文字認識 / 領域理解 / マルチテンプレート
研究概要

本年度の研究では、当初の目的であった。完全自動文書認識システムを完成させるまでに至らなかったが、次の成果を得た。これらを基礎にして展開研究を計画している。
1.文字パターンの特徴量空間である196次元ベクトル空間において、各字種の特徴量の集まりを正2^N面体型特徴領域と2^N面体型特徴領域との共通部分として定め、字種間相互の特徴領域の重なりを調べた。2^N面体型特徴領域はマハラノビス距離による超球型特徴領域の近似であり、線形計画法を用いて重なりを調べるために導入した。調べた結果、1字種の特徴領域と重なる特徴領域を持つ字種数が平均79であることがわかった。これは、単純なマンハッタン距離を用いた正2^N面体型特徴領域だけによるものに較べて約1/5になっているが、まだ、重なりが大きいことを意味している。
2.文字の特徴領域の重なりが類似文字に起因することに着目し、類似文字であるかどうかの判定法を考え、類似文字間の識別法としてその相違部分を重視する方法を考案した。また、低品質文字の認識のため、動的重み付き単純類似度を考え、つぶれ度による文字品質の判定により、品質に応じた識別手法を適用することで、より高精度な認識ができることを明らかにした。
3.日本語文字列の生成確率モデルとして文字trigram-単語trigramの複合モデルを考え、これを用いて誤りを含む認識結果候補文字列からより正しいもの選択する手法を開発した。
4.文書レイアウト解析については、必ずしも長方形ではない文章ブロックを抽出する方法を考案し、実験により検証した。

報告書

(2件)
  • 1997 実績報告書
  • 1996 実績報告書
  • 研究成果

    (7件)

すべて その他

すべて 文献書誌 (7件)

  • [文献書誌] 大町真一郎, 阿曽弘具: "品質を考慮した印刷文字認識手法" 情報処理学会論文誌. 38・12. 2490-2498 (1997)

    • 関連する報告書
      1997 実績報告書
  • [文献書誌] 後藤英昭, 塚田仁志, 阿曽弘具: "文書中の非方形文章ブロックの抽出のためのアルゴリズム" 電子情報通信学会論文誌(D・II). J81-DII・1. 212-214 (1998)

    • 関連する報告書
      1997 実績報告書
  • [文献書誌] H. MORI, H. ASO, S. MAKINO: "Robust n-Gram Model of Japanese Character and its Application to Document Recognition" IEICE Trans. Information and Systems. E74D・5. 471-476 (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] M. SUZUKI, N. KATO, H. ASO, Y. NEMOTO: "A Handprinted Character Recognition System Using Image Transformation Based on Partial Inchination Detection" IEICE Trans. Information and Systems. E79D・5. 504-509 (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] F. Sun, S. OMACHI, H. ASO: "Precise Selection of Candidates for Handwritten Character Recognition Using Feature Regions" IEICE Trans. Information and Systems. E79D・5. 510-515 (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] 大町真一郎,孫方,阿曽弘具: "カテゴリー間分布を考慮した文字認識用マルチテンプレート辞書の構成法" 電子情報通信学会論文誌(D-II). J79-D-II・9. 1525-1533 (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] 大町真一郎,阿曽弘具: "つぶれを考慮した低品質印刷文字の高精度認識" 電子情報通信学会論文誌(D-II). J79D-II・9. 1534-1542 (1996)

    • 関連する報告書
      1996 実績報告書

URL: 

公開日: 1996-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi