2019 Fiscal Year Research-status Report
手書き文字認識問題を対象とした深層学習における入力パターン内論理構造の自己組織化
Project/Area Number |
19K12045
|
Research Institution | Oita University |
Principal Investigator |
行天 啓二 大分大学, 理工学部, 講師 (80305028)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 深層学習 / 手書き文字認識 / データ拡張 / 文字ストローク認識 / 文字構造モデル |
Outline of Annual Research Achievements |
2019年度は,交付申請書で設定した研究計画である,(1)文字構造モデルの改良による自然な手書き文字画像の生成,(2)深層学習の過程における学習データの構造制御による文字認識性能の比較・検証に則して,研究を遂行した. 具体的には,文字内のストローク単位の情報が表現されている文字モデルを用い,各ストロークの軌跡を微妙に変動させることにより,様々な筆跡の手書き文字画像を人工的に生成することができる手法を提案した.さらに,ストロークを一部欠落させた手書き文字画像を生成して学習用文字画像として用い,文字の認識だけではなく,各文字のストロークの有無を把握することができるニューラルネットワークを構築した.その結果,文字認識の性能を向上させることができることを確認した.さらに,各文字のストロークの有無を判別することができる構造をネットワークに持たせることにより,文字の誤認識が生じた際に,その誤りがどのストロークに起因するかについて説明することができる可能性を示した. 提案手法における文字モデルを用いた手書き文字画像生成は,上記(1)の目的を直接的に達成するものである.文字内のストロークの位置関係を自由に変動させ,様々な筆跡を無限に生成することができる点は,従来手法には無い特長であり,意義のあるアプローチであったと考える. また,本手法において,ストロークの有無を把握することができるという点は,上記(2)の箇所において記述した,「文字を部首・ストロークレベルで認識することができる識別器」につながるものである.(2)を検証する実験を通じ,部分的に不明瞭な点がある文字については,ストロークの有無の判定結果を通じてその場所を指摘することができることを示した.一方,文字認識における誤認識の多くは,文字内の全ストロークの全体的なずれに起因すると考えられることを示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「研究実績の概要」で示した通り,本研究は,現時点で,交付申請書で設定した研究計画の通りに進んでいると考えている. しかしながら,自然な手書き文字画像を生成して学習用文字画像のデータ拡張に用いることにより,深層学習による文字認識の性能を向上させるという点については,計画以上の進展が見られたとは言い難いと判断している.現状では,従来の画像処理的手法に基づく学習用画像データ拡張と同等の性能しか得られず,従来手法を遥かに凌ぐ性能を示すことができていない.これは,従来のデータ拡張手法を適用することによる文字認識性能が,既に極めて高く,従来手法を遥かに凌ぐ性能と判断することができる結果を得ることが困難になってしまっているためである. また,学習用文字画像において文字構造を制御することによる文字認識性能の比較・検証については,例えば,部分的に大きく崩れた文字画像を入力した場合,構造的に崩れているストロークを指摘することができるようになった.一方,人間の目で見て大きく崩れているとは言い難い文字画像について誤認識が生じた際に,提案手法では,その理由をストロークレベルで説明することができる結果を得ることができなかった.つまり,文字の全てのストロークの全体的な位置関係の歪みに起因する誤認識について,提案手法では対処することができないという結果になった.これは,当初の目的である,文字のストロークレベルでの認識結果が,文字認識性能にどのような影響を与えるかについて検証するという目的を困難にする現象である.以上より,この点についても,当初の計画以上に進展しているとは言い難いと判断している.
|
Strategy for Future Research Activity |
深層学習による文字認識において,従来の画像処理的手法に基づく学習用文字画像データ拡張による性能向上を遥かに凌ぐ結果を出すためには,より自然な文字画像生成手法を確立しなければならないと考えている.現在の文字モデルを基本としたアプローチだけでは,どうしても不自然な筆跡の文字画像が生成されてしまう.この点については,例えば,敵対的生成ネットワークを用いたアプローチに基づいた手法を検討する予定である.文字モデルから生成された文字画像を生成器の入力とし,識別器との組み合わせで学習させることにより,文字モデルから生成された文字画像を自然な文字画像に変換させることができないかについて検証する. また,現状では,認識対象文字数を400文字に限定しており,従来手法と提案手法の両方で99%以上の認識率を達成している.そのため,認識性能に差が出ず,両手法の性能比較が困難であるという問題がある.これは,提案手法が,各文字の各ストロークに対応するノードを出力層に持つニューラルネットワークを使用していることによる.認識対象文字数を多くするとネットワーク規模が巨大になりすぎ,コンピュータ上に実装することができない.この問題に対処するためには,学習の過程で,認識対象の文字数を増やしつつ,かつ,冗長なノードを枝刈りしていくようなアプローチが必要になるものと推察している.この枝刈りは,交付申請書で設定した研究計画で触れた,(3)学習データの構造制御を伴う遷移学習による重み変化の解析,(5)入力パターンに内在する論理構造の自己組織化に関する,何らかの知見を与えてくれるのではないかと考えている.つまり,冗長なノード枝刈りの際には重み変化の解析が必須であり,また,枝刈りを通じて残ったネットワーク構造は,文字内・文字間に存在する部分的同一性,つまり,何らかの論理構造を表現しているのではないかと期待している.
|
Causes of Carryover |
年度末に,残額全てを旅費として使用したが,所属組織の旅費計算方法では端数が生じざるを得なかったため. 次年度は,引き続き旅費として使用する計画である.
|
Research Products
(1 results)