2020 Fiscal Year Research-status Report
手書き文字認識問題を対象とした深層学習における入力パターン内論理構造の自己組織化
Project/Area Number |
19K12045
|
Research Institution | Oita University |
Principal Investigator |
行天 啓二 大分大学, 理工学部, 講師 (80305028)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 深層学習 / 手書き文字認識 / 特徴可視化 / 線画生成 |
Outline of Annual Research Achievements |
2020年度は,交付申請書で設定した研究計画のうち,(3)深層学習における学習データの構造制御を伴う遷移学習による重み変化の解析,(4)入力文字画像の構造制御による入力認識結果の変化の解析に則して,研究を遂行した. 具体的には,文字認識用ニューラルネットワークの重みを解析するために,ネットワーク内の各ノードの発火を最大にする入力画像を生成する手法を確立した。この手法を用いて,各ノードが入力画像のどのような特徴を捉えているのかについて可視化し,ネットワークの特性について解析する方法を検討した。これは,上記(3)において,学習データを制御してネットワークに与えることにより,各ノードの状態がどのように変換するのかを,視覚的に把握することができるようにするためのものである。現状では,ネットワークに係る特徴抽出の可視化に関する従来研究において指摘されている通り,人間の視覚的直観に合致した可視化結果は得られていない。しかし,直観には合致しないものの,文字内の構造的特徴を可視化することには成功しており,ネットワーク内の各ノードの役割の解析に寄与する可能性はあるものと考えている。 また,入力文字画像の構造制御を実現するために,深層学習により線画を人工的に生成し,制御する方法について検討した。これは,上記(4)の目的を,直接的に達成するためのものである。ただし,人間が描いたような手書き文字を人工的に生成することは困難であることが予想されたため,まずはイラスト等を対象し,イラスト内の線画の一部を入力すると,線の分量を制御しつつ残りの線を補完し,線画を人工的に生成する手法を提案した。イラストの生成についてはほぼ成功しているため,本手法の様々な知見を応用すれば,手書き文字画像の生成につながるものと考えている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「研究実績の概要」で示した通り,現時点で,交付申請書で設定した研究計画に則り,個々の要素技術について研究を進めることができているものと考えている。 交付申請書で設定した研究計画のうち,「(2)深層学習の過程における学習データの構造制御による文字認識性能の比較・検証」については,例えば,部分的に大きく崩れた文字画像を入力した場合,構造的に崩れているストロークを指摘することができるようになったことは,昨年度の段階で示すことができている。一方,「(3)深層学習における学習データの構造制御を伴う遷移学習による重み変化の解析」については,文字認識用ニューラルネットワーク内の各ノードを活性化する入力の可視化には成功しているものの,その結果が人間の直観と合致していない。そのため,重み変化の解析に応用するという段階には至っていない。 「(1)文字構造モデルの改良による自然な手書き文字画像の生成」については,ほぼ達成することができている。ただし,まだ改良の余地はあるため,今後とも継続的に手法を改良していく必要があると考えている。「(4)入力文字画像の構造制御による入力認識結果の変化の解析」については,処理対象が文字画像ではなくイラストではあるものの,生成される線画の構造の制御がある程度可能であることを示すことができている。しかし,本手法の文字画像生成への応用については未実装であるため,引き続き研究を続けていく必要があると考えている。 また,現状では,上記(2)(3)に関連する文字認識用ニューラルネットワークの性能解析およびネットワーク内重み解析に関する研究と,上記(1)(4)に関連する手書き文字画像生成および制御に関する研究が,それぞれ独立に進行しており,両研究が有機的に連携しているとは言い難い。以上より,研究の進捗としては,まだ不十分な点があるものと捉えている。
|
Strategy for Future Research Activity |
文字認識用ニューラルネットワーク内の重み解析については,各ノードを活性化する入力の可視化には成功しているものの,その結果が人間の直観と合致していない。これは,ニューラルネットワークに係る特徴抽出の可視化に関する従来研究において指摘されている課題であり,所望する可視化結果に関連する先験的知識を反映することにより,ある程度解決することが知られている。今後,文字画像に関連する様々な先験的知識を試行錯誤的に反映することにより,可視化結果の改善を試みる予定である。また,人間の直観に合致しない特徴が可視化されてしまうのは,ネットワーク構造が複雑すぎ,論理的に整理された人間の知識では説明することができない冗長な特徴を利用してしまっているからではないかと考えている。これについては,ニューラルネットワークの学習の過程で,冗長なノードを枝刈りしていくようなアプローチを導入することにより,抽出される特徴がコンパクトになり,人間の直観に合致する可視化結果を得ることができるのではないかと推察している。この枝刈り適用についても,今後検討していく予定である。 また,手書き文字画像生成および制御については,イラスト生成において得られた知見を文字画像生成に応用することを試みる。単に文字の形を変形させるだけではなく,手書き文字として自然な形状を保ちながら,文字内のストロークの有無についても制御する方法についても検討する予定である。これは,ネットワークに入力する文字画像をストロークレベルで制御しつつ,ネットワーク内の各ノードの発火状況を解析することを可能とするためである。 さらに,これらの成果を統合し,交付申請書における最後の計画である,「(5)入力パターンに内在する論理構造の自己組織化の可能性検証」につなげていく予定である。
|
Causes of Carryover |
年度末付近に購入した物品について残額が生じ,他に必要な物品購入に足る金額に至らなかったため。 次年度は,引き続き物品費として使用する計画である。
|
Research Products
(8 results)