自然言語によって制御される時系列とシーン情報を考慮可能な動画生成モデル

Research Project

Project/Area Number	23KJ0381
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Multi-year Fund
Section	国内
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	The University of Tokyo
Principal Investigator	勝又海東京大学, 情報理工学系研究科, 特別研究員(DC2)
Project Period (FY)	2023-04-25 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥1,800,000 (Direct Cost: ¥1,800,000) Fiscal Year 2024: ¥900,000 (Direct Cost: ¥900,000) Fiscal Year 2023: ¥900,000 (Direct Cost: ¥900,000)
Keywords	動画生成 / 画像生成 / 3D / 画像認識
Outline of Research at the Start	深層学習を用いたテキストを入力とする複雑な時系列やシーンを考慮可能な動画生成技術の構築を行う。テキストを入力とする動画生成において時系列情報とシーン(構図情報)を明示的に分離、抽出することでストーリーや複雑な構図を持つ動画の生成を実現する。映像産業やビジュアルコミュニケーションにおける実用的な動画生成では場面の切り替りや動画内において背景や登場人物など不変な情報と視点やモーションのように変化する情報を扱えることが要求されており、このような需要に応えられる技術を開発する。
Outline of Annual Research Achievements	現在成功している深層学習を用いたテキストを入力とする動画生成技術ではフレーム単位では高品質な動画の生成に成功しているものの，時系列的な一貫性や複雑なコントロール能力に課題が残る．本研究では時系列情報と構図情報の制御を可能にしより高品質な動画生成技術の構築に取り組む．本年度は複雑な動画生成が可能な技術基盤の構築のために埋め込み空間での移動方法，不変な情報と可変な時系列情報を分離して扱える技術，非典型的な物体の生成技術，効率的な動画の表現方法の研究活動を実施し，大きく研究を進展させた．埋め込み空間での移動方法の研究では従来利用されていた埋め込み空間では空間上を移動する中で埋め込み空間から外れてしまうケースがあり移動の滑らかさが失なわれていた．埋め込み空間内での移動を保証する頑健な空間を提案し，研究成果をコンピュータビジョン分野の国際会議Computer Vision and Pattern Recognition (CVPR)のワークショップでポスター発表を行なった．不変な情報と可変な情報を分離する研究では人間の顔対象として不変な情報である生成する人物を変更せずにカメラ視点や表情を制御することが可能な生成モデルを提案し，国内学会MIRUにおいて発表を行った．DAADの支援を得てドイツへ2週間滞在し，現地の動画像の研究を行う研究者との議論を行なった．議論の通して動画生成研究を深化させるための着想を得た．非典型的な物体の生成手法の研究では，少数しかデータが得られないカテゴリの物体の生成品質の向上や雑多なデータを学習に利用する手法を実現し，それらの研究成果を国際会議WACVで発表を行った．より複雑なシーンを精巧に表現するためには二次元の画像空間での表現では不十分であると考えて時系列の情報を含む三次元シーンの表現方法を開発し，プレプリントの公開を行った．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究の計画を実現するにあたり、大きな課題であった時系列情報の分離と3次元の構図の表現手法に関して技術的基盤が確立できた．今後は一般的なクロスモーダルな生成手法にこれらの研究成果を導入し，本研究の最終的な目標を実現できると期待でき、具体的な道筋が得られたことから十分な進展であると考える。
Strategy for Future Research Activity	本年度開発した埋め込み空間の効率的な利用を可能とする技術，不変な情報と可変な時系列情報を分離して扱える技術，非典型的な物体の生成技術，4次元構図の表現技術をテキストを入力とする動画生成手法へ応用する．また生成結果を制御するための入力となるテキストから時系列情報や構図情報を分離し，補助的な生成条件として動画生成手法の制御に利用することでよりテキスト指示に沿った動画の生成を可能にする．

Report

(1 results)

2023 Research-status Report

Research Products
(4 results)

All 2024 2023

All Journal Article (3 results) (of which Int'l Joint Research: 3 results, Peer Reviewed: 3 results, Open Access: 3 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024
- Author(s)
  Katsumata Kai、Vo Duc Minh、Nakayama Hideki
- Journal Title
  
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  Volume: - Pages: 4932-4941
- DOI
  10.1109/wacv57701.2024.00487
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Revisiting Latent Space of GAN Inversion for Robust Real Image Editing2024
- Author(s)
  Katsumata Kai、Vo Duc Minh、Liu Bei、Nakayama Hideki
- Journal Title
  
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  Volume: - Pages: 5301-5310
- DOI
  10.1109/wacv57701.2024.00523
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024
- Author(s)
  Katsumata Kai、Vo Duc Minh、Harada Tatsuya、Nakayama Hideki
- Journal Title
  
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  Volume: - Pages: 5311-5320
- DOI
  10.1109/wacv57701.2024.00524
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Presentation] Balancing Reconstruction and Editing Quality of GAN Inversion for Real Image Editing with StyleGAN Prior Latent Space2023
- Author(s)
  Kai Katsumata, Duc Minh Vo, Bei Liu, Hideki Nakayama
- Organizer
  AI4CC Workshop at CVPR 2023
- Related Report
  2023 Research-status Report
- Int'l Joint Research

自然言語によって制御される時系列とシーン情報を考慮可能な動画生成モデル

Principal Investigator

勝又 海 東京大学, 情報理工学系研究科, 特別研究員(DC2)

¥1,800,000 (Direct Cost: ¥1,800,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Revisiting Latent Space of GAN Inversion for Robust Real Image Editing2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024

Author(s)

Journal Title

DOI

Related Report

[Presentation] Balancing Reconstruction and Editing Quality of GAN Inversion for Real Image Editing with StyleGAN Prior Latent Space2023

Author(s)

Organizer

Related Report

勝又海東京大学, 情報理工学系研究科, 特別研究員(DC2)