2023 Fiscal Year Research-status Report

CNN を用いた高精細画像に対する物体認識の精度向上に関する研究

Research Project

Project/Area Number	22K12170
Research Institution	Tokyo Metropolitan University
Principal Investigator	西川清史東京都立大学, システムデザイン研究科, 教授 (40254148)
Project Period (FY)	2022-04-01 – 2025-03-31
Keywords	深層学習 / 畳み込みニューラルネット / 物体検出 / 高精細画像
Outline of Annual Research Achievements	本研究は、3840x2160画素(4K 画像)や 7680x4320画素(8K 画像)などの高精細画像からの物体検出精度の向上を目的としている。今年度は、畳み込みニューラルネット (Convolutional Neural Network: CNN) による物体検出モデルの一つである SSD (single shot detection) およびその拡張版である DSSD (Deconvolutional SSD) を基本ネットワークとした際の高精細画像からの物体検出の高精度化に関して検討を行った。本研究では、画像中に占める面積が大きく異なる物体が多数存在する高精細画像を対象とし、より多くの物体の検出を可能とする手法に対する検討を行っている。このような条件下でのCNN に基づく物体検出では、画像中に占める面積が一定値以下もしくは一定値以上となる物体に対する検出精度が低下する。通常の SSD における検出可能な物体面積の範囲は本研究で既に導出しており、今年度は各物体を最適面積に変換したのち検出を行う手法を提案した。既存手法では、対象となる画像の解像度を特定のサイズに変換後に物体検出を行う。高精細画像は一般に縮小処理されたのちにネットワークに入力される。この際、画像中の全物体の面積は同一の変換比に基づき縮小されることとなり、縮小後の面積にもとづき検出精度が決定される。画像中の物体に対する検出精度を向上させるためには、解像度変換後の面積を制御する手法が必要となる。本研究では、解像度変換後の各物体の面積を一定範囲に収めることを目的とし、解像度の異なる複数画像を検出に用いる構成を提案した。異なる解像度の画像を用いる事で、各物体の面積を個別に制御可能とし検出精度の向上を可能とする。提案手法を用いることで任意の大きさの物体に対する検出精度が向上可能である事を確認した。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 本年度は、CNN に基づく物体検出モデルの一つである SSD およびその拡張である DSSD を対象として、高精細画像からの物体検出精度の向上に関する検討を行った。SSD および DSSD では、畳み込み演算の処理回数が異なる出力を利用可能であるという特徴を利用することで、画像中の各物体の面積を個別に制御することが可能となり、物体検出精度の向上が可能である事を示した。当初の研究計画では、この成果を学術論文として発表することを予定していたが、当初計画より若干遅れ現在論文を執筆しており今後学術誌への投稿を計画している。同時に、提案手法の発展として SSD とは異なる物体検出モデルに対して本研究の成果を応用するための基礎的な検討を開始している。本研究における成果は、必ずしも SSD および DSSD に限定されず、 CNN に基づく一般的な物体検出モデルに対して応用が可能であると考えている。しかしながら、現時点では提案手法の実装は SSD のもつ構成に依存した形で行われており、他のモデルでの実装方法は示されていない。この理由として、SSD は CNN に基づく物体検出モデルとしては比較的初期のものであり、構成がシンプルであることが挙げられる。このため、本研究の成果を一般的な構成へ拡張する事を目的に、YOLO (You Only Look Once) への応用を中心として検討を行っている。YOLO は、現在もヴァージョンアップを重ねており、SSD に比べネットワーク構成などに最新の成果が取り入れている。一方で、YOLO は SSD と異なり畳み込み層での処理回数の選択が困難な構成となっており、物体面積の制御には新たな検討が必要となる。
Strategy for Future Research Activity	今後の研究の推進方策は以下のとおりである。昨年度および今年度の研究において、画像中に占める各物体の面積と検出精度の関係を検討する事で、SSD モデルに基づき各物体の面積を検出に最適となるよう制御するシステム構成法を提案した。提案した手法は、解像度の異なる複数の入力画像を用いることで、物体毎の面積制御を可能とする。しかしながら、現時点では提案手法は、SSD の構成に依存しており一般的な手法として利用するには制約が存在すると考えられる。このため、SSD 以外の物体検出モデルで提案手法を実装し、利用範囲の拡大を目的とする。この方針のもと、本研究の成果を現在広く利用されている物体検出モデルの一つである YOLO (You Only Look Once) で実装する事を検討する。SSD と同様に YOLO も CNN に基づく物体検出モデルであるが、YOLO は現在も頻繁にネットワーク構成に改良が施され、検出精度の改善が行われると同時に動画像から物体のトラッキングも可能など、物体検出モデルの標準構成の一つと考えられる。一方で、YOLO の構成は SSD に比べ複雑度が高く、提案手法の考え方を直接応用することは困難である。このため、YOLO の構成を考慮した実装法を導出する必要がある。SSD の構成では処理パスが1つに限定されており、処理層数に応じた出力が得られる単純な構成となっており、提案法において物体面積の制御を可能としていた。これに対し、YOLO では処理の高速化などを考慮した結果、処理パスが複数存在するなどネットワークの中間処理結果と最終出力の対応が単純なものではない。これらの SSD と異なる YOLO の構成に着目することで、物体面積の制御を YOLO で可能とする構成法を検討する。この結果を元に、検出モデルに依存しない一般的な手法として提案法を実現する。
Causes of Carryover	当初予定では、今年度の成果を論文誌に掲載することを計画しており、その掲載費用を計上していた。しかしながら、論文作成が計画よりも遅れており、今年度の時点で掲載費用は発生していない。このため、論文投稿を次年度に実行し、差額分をその論文掲載をとして使用したいと考えている。