画像のグラフ構造化記述と深層学習の融合による物体認識

研究課題

研究課題/領域番号	23K11175
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	大阪電気通信大学
研究代表者	越後富夫大阪電気通信大学, 情報通信工学部, 教授 (80434801)
研究分担者	岩本祐太郎大阪電気通信大学, 情報通信工学部, 講師 (30779054)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2025年度: 520千円 (直接経費: 400千円、間接経費: 120千円) 2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2023年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
キーワード	グラフニューラルネット / アスペクトグラフ / Transformer / 画像分類 / 物体認識 / 構造化記述 / グラフニューラルネットワーク / 疑似アスペクトグラフ / 3D Augmentation
研究開始時の研究の概要	物体は姿勢が変わると同一物であっても見えが異なり，画像から抽出したグラフ構造は異なる．本研究では，３次元回転による見えの変化を表現する３D Augmentationを適用することで，画像上で現れる構造の変化が無い複数の状態をクラスタリング可能で，構造の変化が現れる状態との関係を表現した疑似アスペクトグラフが生成できる．そこで，画像から特徴点をグラフ構造化し，構造化記述と疑似アスペクトグラフを統合したグラフ構造の深層学習による本手法と，従来技術のCNN，ViTによる認識結果と比較し，画像からのグラフ構造記述を用いることの優位性を検証する．
研究実績の概要	近年の深層学習を用いた手法は，物体認識で良好な成果を収めているが，Convolutional Neural Network (CNN)，Vision Transformer (ViT) は画像を構造化しているのではなく，画素の現れる順序を保存しているだけである．そこで，既存手法として有効性が示された構造化記述を，深層学習に組み込んだVision Graph Neural Network (Vision GNN) が参考になる．Vision GNNでは，画像から特徴点をグラフ構造化し，グラフ構造の深層学習によって，より有効な物体認識が可能となり，CNNおよびViTより優れた認識結果が報告されている．一方，画像は３次元対象物の２次元投影であるため，見る方向が異なると見える領域が変化する．そこで対象物の構造を保持し, 見え方を考慮するために画像をグラフ構造に変換する. グラフ構造を利用した前記Vision GNNでは物体の構造に焦点を当てており, 物体の見え方の違いを十分に考慮しているとは言えない. そこで物体の見え方の違いを考慮するためにアスペクトグラフを導入することを提案した．本研究では，前と後，真横，斜め前方，斜め後方の５方向（左右は対称とする）に分類した画像を収集し，対象領域を背景から領域分割した画像セットを基にしたモデルを活用して，対象物の領域画像からグラフ構造に変換し，GNNによって学習された物体の見え方分類を確認した．画像のクラス分類は使用するテストセットに分類ラベルが振られているが，見え方分類は本研究独自のデータであるため，煩雑な画像収集を自動化することは意義がある．さらに3種類のクラスに対するグラフ構造記述からGraph Convolutional Neuralnet(GCN) を用いてクラス分類する手法にも取り組んだ．．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由既存手法のVision GNN は画像をパッチに分解し，特徴的なパッチをノードとして表現し，k-nnでノードを接続するエッジを張っていたが，本研究で同様の手法では分類精度が上がらなかった．そこで，全てのパッチ画像をノードとし，８近傍のノード全てにエッジを張ったグラフを作成し，GCNでノードを統合する手法を用いて画像見え方分類の精度が向上した．本研究結果はまだ十分な分類精度とはなっていないが，改良する目処が見つかった．また画像クラス分類ではデータセットにある10クラス分類がまだできていないが最少の3クラス分類ができるようになった．今後は10クラス分類にデータを拡張して提案手法の確かさを確認したい．
今後の研究の推進方策	本研究では1年目はGCNを使用していたが，ノードの統合を行うにはグラフにTransformerを用いたGraph Attension Network (GAT) の方が有効であると思われる．そこでグラフの学習および統合にはGATを今後使用する計画である．また画像認識以外の他分野のGNN研究において提案される有効な手法が提案されると，早急に取り込んで有効性の検証を行う予定である．また画像見え方分類を自動化することは，煩雑な作業を軽減するために喫緊の課題である．さらに５方向の分類を定義したが，方向によって画像が存在する枚数が極端に異なり，例として後方からの画像がほとんど存在しないクラスもある．そこで少ない画像クラスのAugmentationとして，生成画像を用いて埋め合わせることも必要である．本研究の最大の主張点であるアスペクトグラフの実装がまだ不十分であることが最大の問題点である．隣接する見え方方向のノードを統合することでクラス分類の精度向上に寄与することを検証することが必要である．以上のように画像を構造化記述することがコンピュータにとっても有効な記憶方法であることを明確化することが本研究の目的である．