高難度データ認識と高精細データ生成のための「注意深い」深層学習モデルの開発

Research Project

Project/Area Number	22K12184
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61040:Soft computing-related
Research Institution	Tokyo Denki University
Principal Investigator	日高章理東京電機大学, 理工学部, 准教授 (70553519)
Co-Investigator(Kenkyū-buntansha)	栗田多喜夫広島大学, 先進理工系科学研究科(工), 教授 (10356941)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2022)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Keywords	深層学習 / 深層注意機構 / Attention module / 視覚的注意 / 物体検出 / 人工知能
Outline of Research at the Start	現在の深層学習技術は，低品質なデータや多義的な紛らわしさを含むデータで認識精度が低下したり，生成されたデータに細かな不自然さが含まれる場合があるなど，人間の認知や創作の精度水準には未だ及ばない面もある．本研究では深層学習における従来のボトムアップ(BU)型注意機構をより発展させ，さらにトップダウン(TD)型注意機構およびBU-TD統合型の注意機構を開発し，「注意深い」深層学習モデルの実現を目指す．
Outline of Annual Research Achievements	主な研究成果の一つとして，最新の深層物体検出モデルであるYoloX法およびYolo v7法について，squeeze and excitation (SE) block，efficient channel attention (ECA) block，convolution block attention module (CBAM)，coordinate attention (CA) block, Recursive Gated Convolutions (RGC)などの深層注意機構を組み込んだ検出モデルを開発し，学会発表を行った．提案モデルにより，従来モデル（YoloX, Yolo v7）の高速な処理速度をほとんど低下させずにより高い検出精度指標(mAP)を実現できた．また，検出結果を目視した定性的評価では遠方で折り重なった小さな見えづらい物体や，夜間の不鮮明な物体に対する誤検出が改善している傾向が見られ，注意機構の導入により判別が難しい物体をより正確に認識する能力を獲得できたものと考えられる．当該研究成果の一部は国際会議WSPML2022で発表し，残りの成果は国際会議ICANN2023に投稿中である．また別の研究成果として，代表的な深層学習モデルであるAlexnetについて，霊長類の大脳視覚野との類似性や相違性を検証する研究を行い，成果を学術論文誌（Frontiers in Computational Neuroscience）で公表した．当該研究では一般的な画像分類のために学習されたAlexnetモデルの挙動が，人間の物体知覚の仕組み（特に視覚的注意の機構）と質的に異なることが確認され，通常の画像分類モデルでは注意の能力を獲得しにくい可能性が示唆された．したがってボトムアップ型注意やトップダウン型注意の機構を別途導入することが重要となる．
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason R4年度の研究計画では，本研究課題で掲げる3つの研究目的のうち，1つめに当たる「(X) 新たなボトムアップ型注意機構の開発と応用」に取り組む予定としていた．当該の研究目的はR4～R6年度の3年間で継続的・段階的に研究進捗する予定としており，R4年度はまず既存の物体検出モデルの途中層に何らかのボトムアップ型注意機構を組み込むことを目指していた．R4年度末の時点で既に複数の検出モデル（YoloX, Yolo v7）に複数の注意機構（SE, ECA, CBAM, CA, RGC）を組み込んだ実験が完了し，良好な検出性能を実現することができている．また，同様のアプローチとして，Faster R-CNN法に別種の注意機構（Self-attention, Source-target attention, Lambda layer）を組み込んだ実験も行っており，同じく検出精度を改善できている．この結果についても現在英語論文化を準備している．これらの研究成果の一部は既に国際学会にて発表済みであり，残りの成果も論文投稿中ないし論文化準備中であることから，当初の予定より早く研究が進捗していると言える．
Strategy for Future Research Activity	R5年度の研究計画では，本研究課題で掲げる3つの研究目的のうち，1つめの目的に当たる「(X) 新たなボトムアップ型注意機構の開発と応用」について継続的に研究進捗しつつ，2つめの目的に当たる「(Y) 能動的トップダウン型注意機構の開発」に本格的に取り組む予定である．研究目的(X)については，R5年時点の最新検出モデルであるYolo v8法にボトムアップ型注意機構を組み込む研究や，新たなボトムアップ型注意機構の開発を行う予定である．新たなボトムアップ型注意機構の開発では，ヒトなどの大脳視覚野に見られる特徴的な挙動（例えば「ポップアウト効果」など）を手がかりとして，それらを深層学習モデルの内部処理で再現する機構を実現し，それらによって画像認識や画像生成の精度を向上することを目指す．研究目的(Y)については，再帰型CNN (Recurrent CNN)法やVisionTransformer法をベースとして，認識対象の弁別の困難度に応じて再帰的に注意機構を用いた認識処理を行うことで，視認困難な対象をより注意深く正確に弁別する枠組みを開発する予定である．