本研究は、静止画像や映像から時空間上の重要領域を検出し、画像や映像としての価値や必要な情報を損なわずに高圧縮を実現する技術を開発することを目的としている。重要領域を検出することで保存または伝送すべきデータを判別し、その領域の情報を保持したまま高圧縮することで保存や伝送の効率化を実現する。画像データや映像データの冗長性を極限まで排除することでこれらのデータを有効活用する基盤技術を開発することを目指している。 映像の意味を理解することにより重要領域を検出するために、前年度に引き続きイメージキャプショニングを利用する手法について検討した。すなわち、映像を説明する文章を生成し、文章の意味を解析することにより重要な領域や重要度を推定する。重要度を判断するために主語や目的語等文章中の重要な語を用いた。重要領域とそれ以外を分けて符号化する際にこれまではJPEG2000などの枠組みを用いていたが、機械学習を用いた手法に変更することで精度が向上することを確認した。また、これまでは主に静止画像を用いて検証してきたが、本年度は映像を対象とした実験を行った。検出される領域がフレームごとにばらつくなどの映像特有の問題に対応するための画像処理手法を導入し、精度を向上させることに成功した。 また、データサイズを大幅に削減する手法として、画像生成を用いた画像符号化手法を引き続き検討した。敵対的生成ネットワークを用いた機械学習により、ビットレートを下げつつ主観的・客観的な画像品質を向上させることを目指した。特に、敵対的生成ネットワークにおけるGeneratorとDiscriminatorの役割を精査し、両者が拮抗して学習することで画質が向上することを示した。さらに、一般的なJPEGなどの画像符号化を用いた際にも高圧縮が可能となるよう、あらかじめ機械学習を用いて符号化に適した画像に変換する手法も開発した。
|