研究課題/領域番号 |
22K12170
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京都立大学 |
研究代表者 |
西川 清史 東京都立大学, システムデザイン研究科, 教授 (40254148)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
|
キーワード | 物体検出 / 畳み込みニューラルネット / 高精細画像 / 信号処理 / 深層学習 |
研究開始時の研究の概要 |
本研究は、畳込みニューラルネット (CNN) を用いた物体検出手法である SSD に基づく、高解像度画像からの物体検出の精度向上に関する検討を行う。CNN を用いた物体検出では、ネットワークの学習時に用いた画像の解像度の制約を受ける。現在一般的な SSD では、300 × 300ピクセル画像などの低解像度の画像を用いて学習されており、4K (3, 840 × 2, 160 ピクセル) などの高解像度画像からの物体検出では、画像を大幅に縮小した後に処理を行うため、検出精度の劣化が生じる。この問題に対し本研究では画像の解像度に依存しない物体検出手法の導出を検討する。
|
研究実績の概要 |
本研究は、高精細画像からの物体検出精度の向上を目的としている。今年度は、畳み込みニューラルネット (Convolutional Neural Network: CNN) による物体検出モデルの一つである SSD (single shot detection) を対象とし、処理画像の解像度として 3840x2160画素(4K 画像)や 7680x4320画素(8K 画像)などを想定し検討を行った。 CNN に基づく物体検出で問題となるのは、画像中に占める面積が一定値以下となる物体に対する検出精度が低下することである。CNN に基づく物体検出では、入力画像の解像度は学習時に用いた解像度と同一となるようにリサイズされた後に検出処理が行われる。 SSD では、解像度を 300x300 画素、もしくは 512x512 画素へリサイズした後処理される事が一般的である。このため、4K や 8K 画像では縦横 10分の1 もしくはそれ以下の解像度へのリサイズが必要となり、小さな物体の検出精度が大幅に悪化する。 本研究ではこの問題に対して、検出対象の物体の画像に占める面積の割合と SSD で用いられるバウンディングボックスとの関係を理論的に考察することで、検出可能な物体サイズを拡張する手法を提案した。本手法を用いることで、高精細画像からの物体検出精度を向上可能であることを示した。提案手法の特徴として、ネットワークの再学習やファインチューニング等を必要とせず、既存の学習済み SSD モデルを利用して検出精度の向上を可能としている点が挙げられる。 また、本研究の関連研究として、高精細な顕微鏡画像を用いた染色体形状分類への応用を行った。人細胞の姉妹染色体の分離度に着目した検出・分類を行い、高精度な処理が可能であることを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では、CNN に基づく物体検出モデルの一つである SSD (Single Shot Detection)を対象として、高精細画像からの物体検出精度の向上に関する検討を行っている。当初計画の通り、本年度は SSD における4K画像から検出が可能な物体サイズに関する検討を行い、基底ニューラルネットワークの各出力およびバウンディングボックス (BBox) の組み合わせにより検出可能な物体サイズの範囲の理論的導出を行った。この結果をもとに提案を行った SSD の拡張モデルを用いることで、4K 画像からの物体検出精度を大幅に改善可能であることを示した。 一方で、提案モデルには実用化の観点から検討が必要となる点が存在する。現時点では推定精度の向上以外の観点を考慮していないため、実現に必要となる演算量の増加や、処理時間の長さなどに対する検討が必要である。2年度目以降は、これらの課題に対する検討を行い、より実用的なシステムを提案する事を計画している。 同時に、SSD に対する考察を拡張し、SSD 以外の物体検出モデルに対する、より一般的な手法の導出も検討を計画している。SSD は一度の処理で物体の領域抽出と種類分類を同時に行う手法に分類される。同様の手法として、YOLO、CornerNet, CenterNet などが知られている。このうち、SSD および YOLO は BBox と呼ばれる、矩形領域を利用し物体を検出している。一方、CornetNet, CenterNet では、BBox を利用せずに、各物体の左上の点もしくは、中心点を検出するという違いがある。これら、BBox を利用しない手法に対しても、本研究の応用により、検出精度の向上が可能であるか検討する予定である。
|
今後の研究の推進方策 |
今後の研究の推進方策として、2つの方向性を検討している。1つ目として、SSD に基づく現行の提案モデルの改良を行うことが挙げられる。具体的には、演算量の削減および処理の高速化に対する検討を計画している。提案したモデルを用いることで、高精細画像からの物体検出精度の向上という当初の目的は達成可能であることを示したが、一方で必要となる演算量の増加および処理時間の長さという課題が生じたため、実用化の観点から再検討が必要である。このために、SSD に基づく従来手法における演算量削減手法などの調査を行い、提案手法への応用が可能か検討を行う。同時に、物体検出に用いる特徴量と物体サイズの関係を再検討することで、軽量な構成法などの導出を目指す。 また2つ目の方向性として、SSD 以外の物体検出モデルへの拡張を検討していくことが挙げられる。近年、CornetNet や CenterNet などのバウンディングボックス (BBox) を使用しない物体検出モデルが提案され、その効果が示されている。これらの手法では、物体の左上の点(CenterNet では中心点)および、物体の幅・高さを推定する。提案モデルでは、 検出可能な物体のサイズを、 SSD の BBox と特徴量を抽出する階層におけるネットワーク出力の関係から導出することで、検出精度の向上を実現した。このうち、BBox の考え方を直接拡張することは困難であるが、CNN における畳み込み処理により抽出される特徴量と物体サイズの関係に関しては、提案手法と同様の考え方を応用することが可能である。このため、CenterNet などにおける基底ネットワークの構成に関して検討を行い、検出精度の向上を可能とする手法の提案を行っていく事を計画している。
|