研究課題/領域番号 |
23K02675
|
研究機関 | 奈良工業高等専門学校 |
研究代表者 |
松尾 賢一 奈良工業高等専門学校, 情報工学科, 教授 (10259913)
|
研究期間 (年度) |
2023-04-01 – 2028-03-31
|
キーワード | 答案画像 / 支援システム / 採点記号パターン / 採点数字パターン / 文字認識 / 画像処理 / パターン認識理解 |
研究実績の概要 |
重ね書き文字は,文字同士の一部の文字線が互いに接触している文字,文字の上からさらに文字が書かれた文字,背景上パターンと文字パターンが融合された文字の呼称である. 本研究の目的は,この採点済み答案画像内の自由手書きされた回答文字(重ね書き文字)の認識を可能にする前処理の実現である.この目的達成に向けて,現状の文字認識技術で認識が困難とされる重畳文字の一例である自由手書きされた回答文字を文字認識技術で認識可能にする前処理を提案し,開発済みの「採点ミス発見支援システム」に導入させる.そして,システムの結果として得られる採点ミス発見率から提案手法の有効性とシステムの実用性と汎用性の向上の有無を明らかにする. 現状,この開発済みの「採点ミス発見支援システム」における採点ミス発見率は,採点済み答案内に存在する自由手書きされた採点記号パターンと部分点パターンの分離抽出率と認識率の性能に依存している.さらに,発見率の精度においては,採点記号パターンと部分点パターンの抽出のみならず,回答者が記入した鉛筆書きされた回答文字パターンの分離抽出と認識結果を得ることが望ましいと言える.分離抽出においては,事前に得られた筆記具の色彩情報の基づいたクラスタリング手法をベースに採点記号と部分点パターンに対して,分離抽出処理についてはすでに対応済みであった. しかしながら,採点記号や部分点パターンのように筆記具が有彩色であるが,鉛筆書きされた回答文字パターンは無彩色であることから同手法ベースでの分離抽出は困難であり,さらにクラスタリング手法ベースでは,無彩色の枠線との重畳によって分離抽出結果において文字ストロークの欠損が生じる場合があった. 令和5年度においては,採点済み答案画像内に存在する最終的に認識対象となる各種文字パターンの(採点記号,部分点,回答文字)に関する色彩情報の分析調査を主に実施した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
令和5年度においては,次の研究テーマである,①採点済答案内の各領域に対する色彩情報の分析,②鉛筆で書かれた回答文字パターンの特徴・色彩情報の性質の分析,③枠線領域と回答文字領域間での近似色領域分離抽出手法,について,各手法の提案とその性能評価を実施した. これらの研究結果から,採点記号,部分点,回答文字の各種パターンの分離抽出に用いる基本的な色彩情報の傾向や具体的な性質について明らかにすることができた. まず,①においては,答案用紙内の色彩情報は,赤色の筆記具で書かれた採点文字パターン,黒色で印刷された枠線や問題文,答案用紙色の白色の3色が代表色であるが,これらの色彩が重ね書きや重畳によってどのような色クラスタ内の分布となるかを調査した.また,この色クラスタを線形分離可能であるかについての知見を得た.次に②においては,回答文字パターンの色彩情報について調査し,調査結果で得られた色彩情報を用いて回答文字パターンの抽出を試みた.この抽出された回答文字パターンに対して文字認識処理を適用できるパターン品質が得られていることを確認できた. 最後に③においては,回答文字パターンと枠線との色彩情報が類似している箇所が答案画像内の一部に見られ,この影響で回答文字パターンと枠線を分離抽出させる適切なしきい値設定法の導入が不可欠であることが分かった. 残された課題としては,無彩色である回答文字パターンに対する分離抽出精度を向上させるには,答案内に存在する印刷済みの枠線や用紙自身の背景色も無彩色であることから,これらの3色を良好に分離するための色クラスタリング手法,あるいは,線形分離させる改良手法の提案が必要不可欠と言える. また,重ね書きやパターンの重畳を含む答案画像の収集については,コロナ禍の影響で1年延期したことから,これについても令和6年度の課題として取り組む必要がある.
|
今後の研究の推進方策 |
採点記号,部分点,回答文字の各種パターンの分離抽出手法の改良については引き続き実施していくが,分離抽出された各種パターンを高精度に認識する対応策を今後検討していく. 具体的には,各種パターン分離抽出手法の改良において,「回答済みの答案用紙画像から採点文字パターンのみを分離抽出する現行手法の高精度化処理」,回答文字パターンのみの分離抽出については,「枠線や問題文と回答文字パターンの濃度分布を頑健に分類する閾値決定法の提案」への対応を実施していく. これとは別に,分離抽出された各々の文字パターンに対する高精度な文字認識処理が必要であることから,現状から新たな答案画像データを収集するとともに,機械学習を導入して認識精度を飛躍的に向上させるために,収集した答案画像データから機械学習に必要となる各種パターンを可能な限り文字パターン単位で切り出して,パターン辞書を作成することが必要である. 次に,作成したパターン辞書によって機械学習させた文字認識エンジンを開発済みのシステムに導入させて,各種パターンに対する認識精度を向上させることで,採点ミスの発見率の改善に寄与するかについても明らかにしていく.
|
次年度使用額が生じた理由 |
コロナ禍終盤であったが,データ収集時に感染拡大を回避するために,答案画像データの収集においては,次年度に繰り越したことから人件費の発生が0であった. さらに,前述の答案画像データの収集が未実施であることから,答案画像からの文字データの切り出しと,切り出されたパターンによる学習データの作成が進展していないことから,機械学習用のワークステーションの購入を次年度以降に繰り越したことから,物品費についても残金が発生した.
|