Distributed video coding and deep learning using convolutional sparse dictionary generated with large scale datasets

Research Project

Project/Area Number	23K11159
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	Kurume National College of Technology
Principal Investigator	黒木祥光久留米工業高等専門学校, 制御情報工学科, 教授 (60290847)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2023: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords	畳み込み型スパース表現 / 分散圧縮符号化 / 深層学習 / 凸最適化
Outline of Research at the Start	現在のAIブームは畳み込みニューラルネットワーク（CNN）が画像認識のコンテストILSVRC 2012にて他の手法を凌駕したことに起因する．本研究で検討する畳み込み型スパース表現は，与えられた画像を複数の畳み込みカーネルと対応する特徴マップの和で近似するため，CNNとの親和性が高い．スパースとは特徴マップに多数のゼロ要素を含むことであり，CNNより特徴的かつ高精度なフィルタが設計されている可能性がある．更に，学習用画像が少数で済むとの利点も有する．本研究では外れ値を含む学習用画像への頑健性と大規模データでカーネルを設計できるような工夫を加え，分散圧縮符号化と深層学習に応用する．
Outline of Annual Research Achievements	画像信号のスパース表現は，与えられた信号をできるだけ少数のベクトルの線形結合によって近似する方法であり，多くの分野で活用されている．その方法は，与えられた信号と同次元のベクトルの線形結合を用いる方法，複数の畳み込みカーネルと特徴マップの和で表現する方法，の2つに大別できる．前者の場合，一般に画像を重複しない矩形ブロックに分割し，ブロック毎に処理を行うが，同じ位置にあるブロックを常に処理対象とするため，位置ずれに対する頑健性が低い．一方，後者では，位置ずれは特徴マップの非ゼロ係数の位置変化によって表現されるため，畳み込みカーネルは位置ずれに対して頑健性が高い．令和5年度は畳み込みスパース表現を用いた分散圧縮符号化，非ゼロ係数の位置に着目して画像の位置ずれ対して頑健なVision Transform (ViT) などについて研究した．ViTは画像を固定のブロックに分割し，そのブロックの関係性を広域的に求めるため，畳み込みカーネルを用いて局所的な特徴抽出を行う畳み込みニューラルネットワーク（CNN）と異なり，近年注目されているが，固定ブロックに着目する限り，位置ずれに対する頑健性は低い．それを非ゼロ係数の位置で補正したものである．得られた成果はInternational Workshop on Advanced Imaging Technology (IWAIT) 2024にて6件の口頭発表を行った．そのうち3件はSPIE Digital LibraryのProceedings volume 13164にて公開されている．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究は令和2年度から4年度の科学研究費助成事業「l1ノルム損失における畳み込み型スパース表現と分散圧縮符号化・深層学習への展開」（課題番号20K11878）の発展であり，コンセンサス方式を用いた大規模データにおけるカーネル辞書の作成と畳み込みニューラルネットワークと異なる深層学習，例えばVision Transform等への適応に新規性がある．令和5年度は中規模のデータを用い，L1ノルム損失における成果を残しており，おおむね順調に進展していると判断した．
Strategy for Future Research Activity	令和6年度は令和5年度の成果を踏まえ，大規模データでの実行を試みる．既に近似精度に関してはL1ノルム損失が有効であるとの成果を得ているため，分散圧縮符号化等での性能向上が見込められる．ところで，畳み込みスパース表現では計算を高速化するために畳み込み演算をフーリエ領域におけるアダマール積で行っている．一般に畳み込みカーネルの画素数は画像の画素数よりも少ない．従って，フーリエ領域における係数ベクトルの次元を均一化するためにカーネルに対するパディングが行われる．令和5年度途中よりパディング法に関する検討を行い，近似精度自体を向上させる成果を得ているため，その内容を報告するとともに，各種手法に組み入れて更なる精度向上を試みる予定である．

Report

(1 results)

2023 Research-status Report

Research Products
(10 results)

All 2024 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results, Open Access: 3 results) Presentation (6 results) (of which Int'l Joint Research: 6 results) Remarks (1 results)

[Journal Article] Vision transformer with pre-positional embedding2024
- Author(s)
  Eguchi Takuro、Kuroki Yoshimitsu
- Journal Title
  
  Proc. SPIE
  
  Volume: 13164 Pages: 13-13
- DOI
  10.1117/12.3018012
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Distributed compressed video sensing based on convolutional sparse coding using Fourier measurement matrix and L1 fidelity term2024
- Author(s)
  Eguchi Takuro、Gondo Yudai、Kuroki Yoshimitsu
- Journal Title
  
  Proc. SPIE
  
  Volume: 13164 Pages: 105-105
- DOI
  10.1117/12.3019408
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Generation of graph embedding vectors based on graph isomorphism problem2024
- Author(s)
  Higuchi Yosuke、Kuroki Yoshimitsu
- Journal Title
  
  Proc. SPIE
  
  Volume: 13164 Pages: 1316432-1316432
- DOI
  10.1117/12.3019647
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Presentation] Distributed Compressed Video Sensing based on Convolutional Sparse Coding using Fourier Measurement Matrix and L1 Fidelity Term2024
- Author(s)
  Takuro Eguchi, Yoshimitsu Kuroki
- Organizer
  International Workshop on Advanced Image Technology 2024 (IWAIT 2024)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] . Generation of graph embedding vectors based on graph isomorphism problem2024
- Author(s)
  Yosuke Higuchi, Yoshimitsu Kuroki
- Organizer
  International Workshop on Advanced Image Technology 2024 (IWAIT 2024)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Distributed Compressed Video Sensing based on Convolutional Sparse Representation2024
- Author(s)
  Yosuke Higuchi, Yoshimitsu Kuroki
- Organizer
  International Workshop on Advanced Image Technology 2024 (IWAIT 2024)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] A Patch Embedding in Vision Transformer robust against Positional Variation2024
- Author(s)
  Keigo Shibata, Mitsuki Sueyasu, Yoshimitsu Kuroki
- Organizer
  International Workshop on Advanced Image Technology 2024 (IWAIT 2024)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] More meaningful patches for Vision Transformer using Convolutional Sparse Representation2024
- Author(s)
  Yudai Inada, Yuto Tsukiashi, Yoshimitsu Kuroki
- Organizer
  International Workshop on Advanced Image Technology 2024 (IWAIT 2024)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Vision Transformer with pre-positional embedding2024
- Author(s)
  Takuro Eguchi, Yoshimitsu Kuroki
- Organizer
  International Workshop on Advanced Image Technology 2024 (IWAIT 2024)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Remarks] Research map 黒木祥光
- URL
  https://researchmap.jp/read0047048
- Related Report
  2023 Research-status Report

Distributed video coding and deep learning using convolutional sparse dictionary generated with large scale datasets

Principal Investigator

黒木 祥光 久留米工業高等専門学校, 制御情報工学科, 教授 (60290847)

¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Vision transformer with pre-positional embedding2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Distributed compressed video sensing based on convolutional sparse coding using Fourier measurement matrix and L1 fidelity term2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Generation of graph embedding vectors based on graph isomorphism problem2024

Author(s)

Journal Title

DOI

Related Report

[Presentation] Distributed Compressed Video Sensing based on Convolutional Sparse Coding using Fourier Measurement Matrix and L1 Fidelity Term2024

Author(s)

Organizer

Related Report

[Presentation] . Generation of graph embedding vectors based on graph isomorphism problem2024

Author(s)

Organizer

Related Report

[Presentation] Distributed Compressed Video Sensing based on Convolutional Sparse Representation2024

Author(s)

Organizer

Related Report

[Presentation] A Patch Embedding in Vision Transformer robust against Positional Variation2024

Author(s)

Organizer

Related Report

[Presentation] More meaningful patches for Vision Transformer using Convolutional Sparse Representation2024

Author(s)

Organizer

Related Report

[Presentation] Vision Transformer with pre-positional embedding2024

Author(s)

Organizer

Related Report

[Remarks] Research map 黒木祥光

URL

Related Report

黒木祥光久留米工業高等専門学校, 制御情報工学科, 教授 (60290847)