Object Recognition by using Deep Neural Networks for Graph Stractured Descriptions of Image Features and Aspect Views

Research Project

Project/Area Number	23K11175
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	Osaka Electro-Communication University
Principal Investigator	越後富夫大阪電気通信大学, 情報通信工学部, 教授 (80434801)
Co-Investigator(Kenkyū-buntansha)	岩本祐太郎大阪電気通信大学, 情報通信工学部, 講師 (30779054)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2025: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2023: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Keywords	グラフニューラルネット / アスペクトグラフ / Transformer / 画像分類 / 物体認識 / 構造化記述 / グラフニューラルネットワーク / 疑似アスペクトグラフ / 3D Augmentation
Outline of Research at the Start	物体は姿勢が変わると同一物であっても見えが異なり，画像から抽出したグラフ構造は異なる．本研究では，３次元回転による見えの変化を表現する３D Augmentationを適用することで，画像上で現れる構造の変化が無い複数の状態をクラスタリング可能で，構造の変化が現れる状態との関係を表現した疑似アスペクトグラフが生成できる．そこで，画像から特徴点をグラフ構造化し，構造化記述と疑似アスペクトグラフを統合したグラフ構造の深層学習による本手法と，従来技術のCNN，ViTによる認識結果と比較し，画像からのグラフ構造記述を用いることの優位性を検証する．
Outline of Annual Research Achievements	近年の深層学習を用いた手法は，物体認識で良好な成果を収めているが，Convolutional Neural Network (CNN)，Vision Transformer (ViT) は画像を構造化しているのではなく，画素の現れる順序を保存しているだけである．そこで，既存手法として有効性が示された構造化記述を，深層学習に組み込んだVision Graph Neural Network (Vision GNN) が参考になる．Vision GNNでは，画像から特徴点をグラフ構造化し，グラフ構造の深層学習によって，より有効な物体認識が可能となり，CNNおよびViTより優れた認識結果が報告されている．一方，画像は３次元対象物の２次元投影であるため，見る方向が異なると見える領域が変化する．そこで対象物の構造を保持し, 見え方を考慮するために画像をグラフ構造に変換する. グラフ構造を利用した前記Vision GNNでは物体の構造に焦点を当てており, 物体の見え方の違いを十分に考慮しているとは言えない. そこで物体の見え方の違いを考慮するためにアスペクトグラフを導入することを提案した．本研究では，前と後，真横，斜め前方，斜め後方の５方向（左右は対称とする）に分類した画像を収集し，対象領域を背景から領域分割した画像セットを基にしたモデルを活用して，対象物の領域画像からグラフ構造に変換し，GNNによって学習された物体の見え方分類を確認した．画像のクラス分類は使用するテストセットに分類ラベルが振られているが，見え方分類は本研究独自のデータであるため，煩雑な画像収集を自動化することは意義がある．さらに3種類のクラスに対するグラフ構造記述からGraph Convolutional Neuralnet(GCN) を用いてクラス分類する手法にも取り組んだ．．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 既存手法のVision GNN は画像をパッチに分解し，特徴的なパッチをノードとして表現し，k-nnでノードを接続するエッジを張っていたが，本研究で同様の手法では分類精度が上がらなかった．そこで，全てのパッチ画像をノードとし，８近傍のノード全てにエッジを張ったグラフを作成し，GCNでノードを統合する手法を用いて画像見え方分類の精度が向上した．本研究結果はまだ十分な分類精度とはなっていないが，改良する目処が見つかった．また画像クラス分類ではデータセットにある10クラス分類がまだできていないが最少の3クラス分類ができるようになった．今後は10クラス分類にデータを拡張して提案手法の確かさを確認したい．
Strategy for Future Research Activity	本研究では1年目はGCNを使用していたが，ノードの統合を行うにはグラフにTransformerを用いたGraph Attension Network (GAT) の方が有効であると思われる．そこでグラフの学習および統合にはGATを今後使用する計画である．また画像認識以外の他分野のGNN研究において提案される有効な手法が提案されると，早急に取り込んで有効性の検証を行う予定である．また画像見え方分類を自動化することは，煩雑な作業を軽減するために喫緊の課題である．さらに５方向の分類を定義したが，方向によって画像が存在する枚数が極端に異なり，例として後方からの画像がほとんど存在しないクラスもある．そこで少ない画像クラスのAugmentationとして，生成画像を用いて埋め合わせることも必要である．本研究の最大の主張点であるアスペクトグラフの実装がまだ不十分であることが最大の問題点である．隣接する見え方方向のノードを統合することでクラス分類の精度向上に寄与することを検証することが必要である．以上のように画像を構造化記述することがコンピュータにとっても有効な記憶方法であることを明確化することが本研究の目的である．