2020 Fiscal Year Research-status Report

動画像理解のための深層状態空間モデリング法の展開

Research Project

Project/Area Number	19K12039
Research Institution	Chiba University
Principal Investigator	川本一彦千葉大学, 大学院工学研究院, 教授 (30345376)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	深層学習 / 状態空間モデル / 動画像理解
Outline of Annual Research Achievements	本研究では，深層学習モデルと状態空間モデルを統合し，行動認識，人物追跡，動画生成といったコンピュータビジョン分野における動画像理解タスクへ応用展開する．本年度の実績は次の通りである．１．前年度に開発した深層マルコフモデルを拡張し，時系列データだけでなく空間データも扱えるように拡張モデルである２D畳み込みニューラルマルコフモデルを開発した．この拡張モデルは，畳み込み層を持つ推論ネットワークとガウス型状態空間モデルに基づく生成ネットワークからなり，変分推論を用いて学習される．実験では，2D熱拡散方程式の時間発展に基づく人工時空間系列データと実際の降水量データ（CMAPデータセット）を使用して，時空間系列予測の観点から評価した．深層マルコフモデルと比較して，予測性能が向上すること，さらに分散が大きいデータに対して予測が頑健であることを実験的に示すことができた．２．２D畳み込みニューラルマルコフモデルの開発と並行して，前年度に引き続き，動画像生成や行動認識のための深層モデルを開発した．まず，動画像から動きを表すスタイルを抽出し，動きスタイル転写を実現するシステムを開発した．雲画像の動画化に応用し，定量評価および主観評価とも従来法よりも良い結果が得られた．さらに，食事動画から食感音を生成する研究にも取り組んだ．これらの生成系の深層モデルは，動画像の潜在空間での表現を獲得するという点では共通している．他にも，一人称行動認識や強化学習にも取り組み，深層観測モデルの構築やロボティクス分野への応用を進めた．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 2020年度は，実績の概要で述べたように，深層状態空間モデルとして，２D畳み込みニューラルマルコフモデルを開発した．この深層モデルにより動画像を扱うことができるようになった．このモデルは，前年度に開発した深層マルコフモデルよりも予測性能が向上してことを評価実験で示している．この研究成果は英文論文誌で公開されている（Halim and Kawamoto, 2020）．現在，動画像予測（次フレーム画像の予測）タスクへの適用と評価を進めている．並行すすめている動画像理解に向けたタスクでは，動画像生成・転写や一人称行動認識に取り組んだ．これらの深層モデルは，動画像の内容や動きを表す潜在表現を獲得し，その潜在表現から生成や認識を実現する．この処理の流れの前半は状態空間モデルのシステムモデルに対応し，後半は観測モデルに対応するとみなすことが可能である．生成系のタスクでは，研究成果を2編の英文論文誌（Kurisaki and Kawamoto, 2020，Uchiyama and Kawamoto, 2021）で公開している．一人称行動認識では1件の国際会議（Takahashi and Kawamoto, 2020）で発表している．その他，国内会議・研究会等で発表している．以上，動画像理解のための深層状態空間モデル開発と評価実験は，おおむね当初の計画通りに研究を進めており，順調に進展している．
Strategy for Future Research Activity	2020年度に開発した２D畳み込みニューラルマルコフモデルを動画像予測へ適用しつつ，さらに，予測性能の向上を目指して，seq2seqアーキテクチャやアテンション機構に基づくトランスフォーマアーキテクチャなど最新の深層アーキテクチャを導入したモデルへの拡張を進める．動画像理解タスクでも引き続きモデルの改良を進める．とくに，動画像の潜在表現の解きほぐし（disentangled representation）について検討を進める．解きほぐし表現では，動画像の潜在ベクトルは，静的属性や動き属性などが分離されて表現される．解きほぐし表現が得られれば，属性を制御しながらの生成や認識が可能になり，深層状態空間モデルでの状態表現として適していると考えている．
Causes of Carryover	COVID-19の影響により，学会がオンライン開催になったため，おもに旅費について次年度使用額が生じた．次年度は，より積極的な学会参加や論文掲載のために使用する計画である．

Research Products
(9 results)

All 2021 2020

All Journal Article (5 results) (of which Peer Reviewed: 5 results, Open Access: 2 results) Presentation (4 results)

[Journal Article] Audio-Visual Model for Generating Eating Sounds Using Food ASMR Videos2021
- Author(s)
  Uchiyama Kodai and Kawamoto Kazuhiko
- Journal Title
  
  IEEE Access
  
  Volume: 9 Pages: 50106～50111
- DOI
  10.1109/ACCESS.2021.3069267
- Peer Reviewed / Open Access
[Journal Article] Animating Cloud Images With Flow Style Transfer2021
- Author(s)
  Kurisaki Kazuma and Kawamoto Kazuhiko
- Journal Title
  
  IEEE Access
  
  Volume: 9 Pages: 3269～3277
- DOI
  10.1109/ACCESS.2020.3048160
- Peer Reviewed / Open Access
[Journal Article] Three-Stream Graph Convolutional Networks for Zero-Shot Action Recognition2020
- Author(s)
  Wu Nan and Kawamoto Kazuhiko
- Journal Title
  
  Proc. of SCIS & ISIS
  
  Volume: 1 Pages: 1～5
- DOI
  10.1109/SCISISIS50064.2020.9322783
- Peer Reviewed
[Journal Article] Reinforcement Learning with Randomized Physical Parameters for Fault-Tolerant Robots2020
- Author(s)
  Okamoto Wataru and Kawamoto Kazuhiko
- Journal Title
  
  Proc. of SCIS & ISIS
  
  Volume: 1 Pages: 1～5
- DOI
  10.1109/SCISISIS50064.2020.9322775
- Peer Reviewed
[Journal Article] Object-Action Interaction Region Detection in Egocentric Videos2020
- Author(s)
  Shinobu Takahashi and Kazuhiko Kawamoto
- Journal Title
  
  Proc. of ISCIIA
  
  Volume: 1 Pages: 1～5
- Peer Reviewed
[Presentation] Food ASMR動画を用いたマルチモーダル深層学習による食感音の生成2020
- Author(s)
  内山光大，川本一彦
- Organizer
  第23回画像の認識・理解シンポジウム
[Presentation] 一人称視点での物体と動作のインタラクション領域検出2020
- Author(s)
  高橋忍，川本一彦
- Organizer
  第23回画像の認識・理解シンポジウム
[Presentation] ゼロショット動画生成のための条件付きMoCoGAN2020
- Author(s)
  木村駿，川本一彦
- Organizer
  第34回人工知能学会全国大会
[Presentation] 状態遷移差分の学習による耐故障ロボットのための強化学習2020
- Author(s)
  大里虹平，川本一彦
- Organizer
  第34回人工知能学会全国大会

2020 Fiscal Year Research-status Report

動画像理解のための深層状態空間モデリング法の展開

Principal Investigator

川本 一彦 千葉大学, 大学院工学研究院, 教授 (30345376)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Audio-Visual Model for Generating Eating Sounds Using Food ASMR Videos2021

Author(s)

Journal Title

DOI

[Journal Article] Animating Cloud Images With Flow Style Transfer2021

Author(s)

Journal Title

DOI

[Journal Article] Three-Stream Graph Convolutional Networks for Zero-Shot Action Recognition2020

Author(s)

Journal Title

DOI

[Journal Article] Reinforcement Learning with Randomized Physical Parameters for Fault-Tolerant Robots2020

Author(s)

Journal Title

DOI

[Journal Article] Object-Action Interaction Region Detection in Egocentric Videos2020

Author(s)

Journal Title

[Presentation] Food ASMR動画を用いたマルチモーダル深層学習による食感音の生成2020

Author(s)

Organizer

[Presentation] 一人称視点での物体と動作のインタラクション領域検出2020

Author(s)

Organizer

[Presentation] ゼロショット動画生成のための条件付きMoCoGAN2020

Author(s)

Organizer

[Presentation] 状態遷移差分の学習による耐故障ロボットのための強化学習2020

Author(s)

Organizer

川本一彦千葉大学, 大学院工学研究院, 教授 (30345376)