2020 Fiscal Year Research-status Report
Preprocessing to enable recognition of handwritten and overwritten characters
Project/Area Number |
20K03143
|
Research Institution | Nara National College of Technology |
Principal Investigator |
松尾 賢一 奈良工業高等専門学校, 情報工学科, 教授 (10259913)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 重畳文字 / 答案画像 / 採点文字 / 採点支援システム / 部分点 / 文字認識 / 文字パターン分離処理 / 画像処理 |
Outline of Annual Research Achievements |
平成2年度は,研究計画として,1.重畳採点記号を含む答案画像の収集,2.重畳文字分離手法の提案,3.提案手法の有効性の検証,4.提案手法の有効性に関する研究報告等を予定していた. 1.については,実験協力者である本校情報工学科5年生および専攻科生計9名によって,本研究費の謝金で模擬答案の作成を依頼し,模擬答案の解答に対して,○,△,チェックの採点記号を用いて採点作業を実施してもらい,その採点記号に対応した配点を部分的記入枠に記述した100枚のA4サイズの模擬答案用紙を作成した.さらに,この模擬答案用紙をイメージスキャナにより300dpiで電子化し,模擬答案画像を作成した. 2.については,重畳文字分離を仮の提案手法で分離処理を施したところ,採点記号のストロークに欠損が生じることや,採点記号パターン同士の重畳の状態によっては,分離処理後の採点記号パターンを本来の採点記号に復元できないものが一部に見られた.そこで,この問題に対処するために,分離手法を施さずに重畳パターンをそのまま入力パターンとして取り扱い,どのパターン同士が重畳しているかを出力結果とする機械学習を用いた認識処理手法を提案するに至った. 3.については,○,△,チェックを様々な状態で重畳させた辞書パターンを作成し,それを機械学習させた認識処理システムを作成した.このシステムを用いて,学習および未知の各60000パターンの重畳採点記号パターンに対して認識実験を実施した.その結果,重畳採点記号パターンに対して,学習パターンで,最大で99.9%,最小で92.4%,平均97.5%,未知パターンで,最大で99.2%,最小で85.8%,平均90.8%の結果が得られた. 4.については,昨今のコロナ渦のため発表の場が減少したことから,来年度にリモートでの開催の学会での発表に延期することにした.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本来は,重畳採点記号の良好な単一パターン同士への分離手法の提案と,高精度な単一パターンの認識手法の導入が,本研究のメインテーマである. 前者においては,単一パターン同士への分離手法の基本的な提案手法は実現しているが,分離後のパターンの品質に問題が残ることから,提案手法の改良が必要であると言える.これに対して,後者の高精度な採点記号パターンの認識処理を実施していた最中で,単一パターンに対して高精度な認識結果が得られるのであれば,重畳採点記号同士をそもそも分離せずとも,単一採点記号パターン同士が重畳しているのかを高精度な認識処理結果によって判定できないかという新たな着想につながることになった. このことから,分離したパターンに対する認識処理か,未分離のままでの認識処理かの結論を,令和3年度前半で明らかにするための研究を実施したいと考えている.また,実験データにおいては,重畳採点記号の分離と認識に必要である模擬答案の収集については完了したが,まだ実際の答案データの収集は実施できていないことから,今後の答案に対する採点パターンの特徴を得るためにも,多種多様な実際の採点済みの答案用紙の収集が必要といえる. また,採点済みの答案データ収集において,昨今のコロナ渦の状況を鑑みながら答案収集を実施していくかの対策の検討も必要となっている.
|
Strategy for Future Research Activity |
今後の研究については,基本的に研究計画に基づき推進していく予定である.令和3年度は,引き続き重畳採点記号の分離手法の提案と提案手法の検証をメインに実施していく.採点記号,ならびに,部分点の認識については,すでに機械学習の導入で学習データに対しては高精度の認識が可能となっているが,学習データ数が現状でもまだ不足であることと,多種多様なデータ収集をまだ実施していないことから,未知データの認識精度向上に向けて,文頭で述べたように数多くの答案データの収集が急務である, また,汎用性のある分離手法にするためにも,これまで採点で用いる筆記具には制約をかけていたが,これを撤廃できるようにすることや,筆記ストロークの色彩情報と経験的パラメータを用いて,答案画像から採点記号と部分点パターンを抽出する処理において,入力された答案ごとに良好な抽出を可能にする色彩情報の変化に対応した処理と経験的パラメータから色彩情報に基づくパラメータの自動化が令和3年度の課題である. よって,様々な答案データに対して,画像処理的特徴や統計的性質を調査することに加え,実際に人間が採点に対してどの程度のパフォーマンスを有するのかを定量的に評価するための分析についても実施していく予定である.最終的に開発するシステムがこの分析結果を上回ることこそが,本システムの有効性を示すための有用な指標になることから,入力される様々な答案の分析についても重要な研究課題として取り組む予定である. なお,成果報告については,万全なコロナ対策が施されたと判断できる発表状況下において,令和2年度の研究結果の発表を実施していきたい.
|
Causes of Carryover |
令和2年度において,認識処理でなく分離抽出処理を中心に研究を推進したことに加え,学習データの収集状況がコロナ渦で良好に進捗していないことから,令和2年で購入予定であった認識処理に必要な機械学習用WSの導入をしていないため次年度使用額が生じた.令和3年度では,認識処理の研究を本格化することからWSの導入で使用する予定である.
|
Research Products
(1 results)