2021 Fiscal Year Research-status Report

手書き文字認識問題を対象とした深層学習における入力パターン内論理構造の自己組織化

Research Project

Project/Area Number	19K12045
Research Institution	Oita University
Principal Investigator	行天啓二大分大学, 理工学部, 講師 (80305028)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	深層学習 / 手書き文字認識 / 枝刈り / 線画生成
Outline of Annual Research Achievements	2021年度は，交付申請書で設定した研究計画のうち，(4)入力文字画像の構造制御による入力認識結果の変化の解析，(5)入力パターンに内在する論理構造の自己組織化の可能性検証に則して，研究を遂行した。具体的には，上記(4)については，昨年度に続き，文字認識用ニューラルネットワーク内の各ノードの発火を最大にする入力画像を生成させ，各ノードが入力画像のどのような特徴を捉えているのかについて可視化することを試みた。この際，これまで人間の視覚的直観に合致した可視化結果が得られなかったことを踏まえ，文字画像が満たすべき視覚的条件を反映した制約を付与することによる改善を試みた。しかしながら，この試みについては，現状では所望の可視化結果が得られていない。一方，上記(5)については，文字認識用ニューラルネットワークの学習の過程で，重みがほぼ無いエッジを枝刈りしていくようなアプローチを導入することにより，似た構造を持つ文字画像に反応するノードを獲得することができることを確認した。これは，異なる文字の類似する構造に関する知識を部分的に獲得することができたと解釈することができる。今後，このような枝刈りを，ネットワークを逐次的に拡大しつつ適用していくことにより，残ったエッジが文字の類似構造を表現するネットワークを得ることができるのではないかと考えている。また，昨年度に続き，入力文字画像の構造制御を実現するために，深層学習により線画を人工的に生成し，制御する方法について検討した。イラスト等を対象にした線画生成については，単に線画を生成するだけではなく，その詳細度も制御することができる方法を提案した。しかし，同様の手法を用いて学習用文字画像を拡張させても，文字認識率を向上させることはできなかった。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 「研究実績の概要」で示した通り，個々の要素技術について，望ましい結果を得ることが難しい点が確認されている。ただし，本来の研究目的の達成に支障を生じさせる問題であるとは考えていない。交付申請書で設定した研究計画「(3)深層学習における学習データの構造制御を伴う遷移学習による重み変化の解析」「(4)入力文字画像の構造制御による入力認識結果の変化の解析」については，当初は，文字認識用ニューラルネットワーク内の各ノードを活性化する入力の可視化を実現した上で，詳細な検討をする予定であった。しかし，既に提案されている様々な先験的知識を導入して可視化結果の改善を試みたが，人間の視覚的直観に合致した結果を得ることができなかった。しかしその一方，「(5)入力パターンに内在する論理構造の自己組織化の可能性検証」について，文字認識用ニューラルネットワークにおいて重みがほぼ無いエッジを枝刈りしつつ，学習を進めていくことにより，文字内の部分的同一性を把握したり，文字の構造を反映したネットワーク構成を獲得することができることを確認することができた。これは，上記(3),(4)の目的とも合致していると考える。今後は，エッジの枝刈りに加え，ネットワークを逐次的に拡大していくアプローチにより，文字の構造をより明確に反映したネットワーク構成を獲得することを試み，上記(3)～(5)を達成することができると考えている。また，上記(3),(4)の達成について，上記アプローチとは異なり，学習用文字画像を人工的に生成し，文字認識性能にどのような影響を与えるかに関する検証も進んでいる。ただし，現時点で明確な知見が得られるような結果は得られていないため，様々な検証が必要であると考えている。
Strategy for Future Research Activity	文字認識用ニューラルネットワーク内の重み解析については，各ノードを活性化する入力の可視化には成功しているものの，その可視化結果を人間の直観と合致させることは，現時点では難しいと考えている。本件について研究は継続するが，今年度は，より実現可能性の高い，文字認識用ニューラルネットワークにおいて重みがほぼ無いエッジを枝刈りしつつ学習を進めるアプローチに軸足を移す。枝刈りの結果，文字認識において類似する字種に反応するノードを明確化でき，さらにそのノードの活性化に寄与するノード群を把握することができるネットワーク構成を獲得することができることは確認されている。今年度は，エッジの枝刈りに加え，ネットワークを逐次的に拡大していくアプローチを導入する。これは，事前に多層のネットワークを準備しておいて学習を開始する従来手法とは異なり，学習に応じて不要なエッジを削除してネットワークを簡略化する。さらに，逐次的に層を追加していくことにより学習対象に応じたネットワークを構築する，新しいアプローチになるのではないかと考えている。併せて，手書き文字画像生成および制御については，イラスト生成においては，生成される線画の詳細度を自由に制御することはできている。また，文字画像生成についても，文字の形状を自由に制御する方法は確立している。しかしながら，生成された文字画像を学習データに用いても，従来の学習用文字画像のデータ拡張と明確に異なる結果は得られていない。本件について，次年度は，提案手法に基づき，より多様な文字画像データを生成し，検証を進めていくしかないと考えている。さらに，これらの成果を統合し，交付申請書における最後の計画である，「(5)入力パターンに内在する論理構造の自己組織化の可能性検証」につなげていく予定である。
Causes of Carryover	年度末付近に購入した物品について残額が生じ，他に必要な物品購入に足る金額に至らなかったため。次年度は，計算機を用いた実験に係る補助記憶装置購入費用の一部として使用する計画である。

Research Products
(1 results)

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Presentation] Automatic Characteristic Line Drawing Generation using Pix2pix2022
- Author(s)
  Kazuki Yanagida, Keiji Gyohten, Hidehiro Ohki and Toshiya Takami
- Organizer
  The 11th International Conference on Pattern Recognition Applications and Methods (ICPRAM2022)
- Int'l Joint Research