研究課題/領域番号 |
18K11360
|
研究機関 | 千葉工業大学 |
研究代表者 |
八島 由幸 千葉工業大学, 情報科学部, 教授 (60550689)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 画像符号化 / 機械学習 / ディープラーニング / 画像認識 |
研究実績の概要 |
当該年度は,画像符号化における「予測処理」および「変換処理」に対して機械学習を応用する手法に取り組み論文化を行うとともに,DNN(Deep Neural Network)による符号化画質推定,DNNのモデル圧縮,DNNを用いた圧縮バイナリデータの直接認識の3点について新たなアイディアを考案し性能を確認した. 具体的には,まず,予測処理においては,初年度に提案した,DNNを利用して推定したフレーム間の動きを表現する変換行列を用いてフレーム間予測を行う手法に対して,予測効率を向上するために,予測誤差の大きさに応じて複数のDNNを設計し,これらを適応的に切り替える手法を考案した.次に,変換処理においては,多数の画像ブロックデータサンプルに対してK-SVDにより辞書(基底の集合)を学習し,基底の線形結合で符号化対象ブロックを表現する際の重み係数のエントロピー符号化に対する新しい手法を考案し,有効性を示した.また,画質推定においては,DNNの中間層出力出る特徴マップを原画像と評価対象画像(復号画像)とで比較することで画質を推定する手法を検討し,DNNを構成する層の中で,どの層の特徴マップを用いると推定精度が向上するかを明らかにした.以上3つの検討結果は,学術誌論文および査読付き国際会議に採録された. DNNのモデル圧縮については,全結合層の重み係数の集合に特異値分解を施し,その結果得られた行列の要素を量子化することで,画像認識精度をほとんど低下させることなく重み係数を表現するための情報量を1/100以下にできることを明らかにした.さらに,画像符号化の結果として得られるビットストリームから画像認識を行う手法として, RNNの一種であるLSTM(Long Short Time Memory)を適用し,ビットストリームを構成するバイナリデータから直接認識できる可能性を示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では,機械学習の枠組みが,画像符号化における処理過程にどのように適用可能なのかを様々な観点から検討するアプローチをとっている.具体的には,(a)予測値生成,(b)変換処理,(c)符号化雑音除去,(d)画質推定,(e)DNN(Deep Neural Network)そのものの圧縮,の5つである. このうち,課題(a)に対しては,初年度に検討した基本機能を拡張した手法を検討するとともに,これまでの結果を論文としてまとめた.また,課題(d)に対しても,初年度の検討に加え,DNNの特定の層が画質推定に大きく貢献することを発見し,米国電気電子学会主催の国際会議で発表した. さらに,今年度には課題(b)の変換処理と,課題(e)のDNNのモデル圧縮の取り組みを開始した.課題(b)に関しては,従来の国際標準化で用いられている離散コサイン変換(DCT, Discrete Cosine Transform)という固定的な枠組みを超えた新しい変換として,機械学習を用いたスパースコーディング手法に大きな可能性を見出し注力した.その結果,変換基底を線形結合する際の重み係数のエントロピー符号化に新しいアイディアを取り入れ,論文化につなげることができた.一方,課題(e)に関しては,今年度の検討はまだ限定的な範囲に留まるものの,DNNの全結合層重み係数の特異値分解や量子化幅と画像認識精度の関係を明らかにできた.次年度には,畳み込み層の検討まで含めて本格的な検討を行う. これら個別の研究進捗は計画通りであり,加えて今年度は,映像符号化研究の今後の方向性として,符号化と機械学習の融合が重要であることを論文として啓発し,その中で本研究課題の全体的な取り組みを発信することができた.以上を総合して,進捗状況はおおむね順調と言える.
|
今後の研究の推進方策 |
本研究課題では,画像符号化の様々な要素技術を,機械学習を応用した方式に置き換えることで,従来とは異なるフレームワークで圧縮効率のよい手法を確立することが目的であり,(a)予測値生成,(b)変換処理,(c)符号化雑音除去,(d)画質推定,(e)DNN(Deep Neural Network)そのものの圧縮,という5つの観点から取り組んでいる.世の中の動向を鑑みると,画像符号化と機械学習を融合する技術に関しては,本研究課題が採択されて以降,急速に研究が活発化しており,圧縮符号化を目的とするだけでなく,様々な観点からの研究課題が見出されつつある.本研究課題においても,画像符号化における圧縮率のみを追求するものではなく,画質推定や,DNNのモデルそのものを圧縮するといった,新しい観点からのテーマも当初から取り入れており,世の中の動向を見据えつつ,検討の重点を課題(d)(e)にシフトしつつ検討を進めたいと考えている.さらに,画像符号化とDNNを融合する新しい方向性として,ビットストリームからの直接認識,中間層特徴マップの圧縮/伝送,DNNのソフトウェア/ハードウェア実現方式等の重要な課題が取りざたされており,本研究課題とも大きな関連性がある.本研究課題と強い関連があるものについては積極的に関わっていくとともに,次期以降の新規課題として提案していきたいと考えている. 本検討を進めるにあたっては,膨大な機械学習処理を行う関係上,実験や性能評価の高速化が課題となっている.本来であれば,4Kや8Kといった高精細映像も実験対象に取り入れたいと考えているが,直接それらを扱うことは難しいため,画像中の部分領域を用いるなど工夫を施して,基本アルゴリズムの評価を進める予定である.
|
次年度使用額が生じた理由 |
当初計画では,HD以下の映像を対象とした実験と並行して,4K(3840×2160),8K(7680×4320)といった超高精細映像向けのシミュレーション実験も執り行う予定にしていたが,世の中の研究情勢より,当該年度は,機械学習の画像符号化応用に関しては様々な観点からの検討を,HD以下の解像の画像で数多く行い,先行してアルゴリズムの確立を行うことが優先であると判断し,GPU搭載符号化性能評価用PC,および軽量PCでの動作確認のためのノートPCの購入に充てたため,計画との乖離が生じた. 最終年度は,当初の予定に含まれている,4Kに代表される超高精細映像を用いた性能評価を行う予定であり,そのためのGPU搭載符号化性能評価用PCおよび映像評価用高精細ディスプレイを調達する.また,最終的に多くの研究成果が見込めるため,論文化や国内外の学会発表に予算を充てていく予定である.
|