知識グラフを用いた内容計画に基づくストーリー動画生成法の研究

研究課題

研究課題/領域番号	23K28139
補助金の研究課題番号	23H03449 (2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2023)
応募区分	一般
審査区分	小区分61030:知能情報学関連小区分60030:統計科学関連合同審査対象区分:小区分60030:統計科学関連、小区分61030:知能情報学関連
研究機関	東京大学
研究代表者	中山英樹東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	18,720千円 (直接経費: 14,400千円、間接経費: 4,320千円) 2025年度: 5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円) 2024年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円) 2023年度: 7,150千円 (直接経費: 5,500千円、間接経費: 1,650千円)
キーワード	動画像生成 / 生成AI / 自然言語処理 / 言語とビジョン / 知識グラフ / 動画生成 / 三次元画像生成 / Gaussian splatting / シーングラフ / 自然言語理解 / 大規模言語モデル / ストーリー生成 / 生成的AI
研究開始時の研究の概要	ChatGPTやDALL-Eに代表される生成AIが社会で大きな注目を集めるようになりました。しかし、これら最先端の生成AIでも、映画のようにストーリー性を有する長時間の動画像を、全体として辻褄の合うように生成するのは容易ではありません。本研究では、AIによるストーリー動画の生成を、人間にとって解釈性が高く制御可能な形で実現するため、グラフによる内容計画というキーテクノロジーを元に研究を進めます。
研究実績の概要	まず、大規模言語モデルを利用し、入力ストーリーからシーングラフを構築するプロンプティング手法を開発した。テキストに加えてシーングラフによる条件付けを行うことにより、ストーリーの時間経過に対して一貫した生成を行うことが可能となる。提案手法をストーリー可視化タスクで評価した結果、実際に入力ストーリーに対する画像列の生成精度を向上できることが示された。さらに、生成画像の妥当性を検証するために、画像からシーングラフを抽出する手法の開発も行った。当該手法は電子情報通信学会論文誌へ採択されている。同時に、画像生成の基本的な性能向上に資する研究を多角的に実施した。特に、本研究で目標とするストーリー動画生成においては、ストーリー進行に応じたさまざまな潜在的条件付けにより、個々のフレームの生成を柔軟にコントロールできることが重要となる。また、良質なアノテーションを施されたデータを十分に得ることが難しい点も大きな問題である。これらの課題に対応するため、我々は代表的な画像生成モデルの一つである敵対的生成ネットワーク(GAN)について、さまざまな潜在表現を用いて頑健な画像編集を行う方法や、少ないデータ・ノイジーなデータからの学習手法などを開発した。これらの成果は、コンピュータビジョンの代表的な国際会議の一つであるWACVへ計3本採択されている。さらに、画像生成を動画生成へ発展させるために必要不可欠となる、三次元画像生成についても大きな進展を得た。具体的には、条件付け三次元GANにおいて空間的な一貫性を保つ手法や、Gaussian splattingにおける3D Gaussianの高速なパラメタライズ手法などを開発し、それぞれ論文投稿を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度は、ChatGPTに代表される大規模言語モデルの隆盛により、生成AI研究をとりまく環境が激変した年であり、本研究も当初計画の大幅な見直しを余儀なくされた。このような中で、速やかに大規模言語モデルを研究に取り込み効果実証を行い、当初の計画を補強しさらに発展させる見通しがたったことは非常に有意義な成果であったと考える。また、基礎的な画像生成技術についても本年度は着実な進展が得られており、数多くの国際会議論文が既に採択されている。さらに、研究上の難関と考えられる動画生成の一貫性の実現についても、その基盤となる三次元画像生成を精度・速度の両面で大きく向上させる技術を複数開発し、論文投稿まで至っている。以上、総合的にみて本年度は十分な成果が得られており、順調に研究が進展していると考える。
今後の研究の推進方策	2023年度の間に、OpenAIのSoraなどの優れた動画生成AIが多数発表され、当初予想していなかったスピードで汎用的な動画生成が実現されつつある。特に、大規模言語モデルを基盤としたプロンプティングにより、ある程度長期的な動画をエンドツーエンドで生成すること自体は既に可能になっているといえる。これを踏まえて本研究の残り期間では、動画生成の質自体の向上よりも、解釈性や操作性を高めることに注力し差別化を図る。まず、本年度開発したシーングラフ抽出手法により得られるシーングラフを、外部知識グラフにより拡張し、大規模言語モデルへと接続する一連の枠組みを開発する。これにより、シーングラフの高い解釈性・操作性と、大規模言語モデルの優れた推論能力を両立させることを狙う。この大規模言語モデルの出力あるいは中間表現を条件付けに用いることで、動画の骨格を成すキーフレームを生成するモデルを構築する。キーフレーム生成後は、本年度開発した三次元画像生成手法を用い、キーフレームの間を埋める他のフレームをサンプリングすることで、動画像として完成させる。最終評価においては、ストーリー動画生成に絶対的な正解は存在しないため、人手による主観評価を主に実施する。クラウドソーシングを用い、提案手法により生成したストーリー動画の質、多様性に加え、知識グラフを介した内容計画の操作性などを評価検証する。

報告書

(1件)

2023 実績報告書

研究成果
(17件)

すべて 2024 2023 その他

すべて国際共同研究 (1件) 雑誌論文 (6件) (うち国際共著 4件、査読あり 6件、オープンアクセス 5件) 学会発表 (7件) (うち国際学会 5件) 備考 (3件)

[国際共同研究] Microsoft Research Asia(中国)
- 関連する報告書
  2023 実績報告書
[雑誌論文] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024
- 著者名/発表者名
  Katsumata Kai、Vo Duc Minh、Nakayama Hideki
- 雑誌名
  
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  巻: - ページ: 4932-4941
- DOI
  10.1109/wacv57701.2024.00487
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Revisiting Latent Space of GAN Inversion for Robust Real Image Editing2024
- 著者名/発表者名
  Katsumata Kai、Vo Duc Minh、Liu Bei、Nakayama Hideki
- 雑誌名
  
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  巻: - ページ: 5301-5310
- DOI
  10.1109/wacv57701.2024.00523
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024
- 著者名/発表者名
  Katsumata Kai、Vo Duc Minh、Harada Tatsuya、Nakayama Hideki
- 雑誌名
  
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  巻: - ページ: 5311-5320
- DOI
  10.1109/wacv57701.2024.00524
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Enhanced Data Transfer Cooperating with Artificial Triplets for Scene Graph Generation2024
- 著者名/発表者名
  KuanChao Chu, Satoshi Yamazaki, Hideki Nakayama
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E107-D
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension2024
- 著者名/発表者名
  Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
  
  巻: -
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Partition-and-Debias: Agnostic Biases Mitigation via A Mixture of Biases-Specific Experts2023
- 著者名/発表者名
  Li Jiaxuan、Vo Duc Minh、Nakayama Hideki
- 雑誌名
  
  2023 IEEE/CVF International Conference on Computer Vision (ICCV)
  
  巻: 1 ページ: 4901-4911
- DOI
  10.1109/iccv51070.2023.00454
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024
- 著者名/発表者名
  Kai Katsumata, Duc Minh Vo, Hideki Nakayama
- 学会等名
  The 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Revisiting Latent Space of GAN Inversion for Robust Real Image Editing2024
- 著者名/発表者名
  Kai Katsumata, Duc Minh Vo, Bei Liu, Hideki Nakayama
- 学会等名
  The 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024
- 著者名/発表者名
  Kai Katsumata, Duc Minh Vo, Tatsuya Harada, Hideki Nakayama
- 学会等名
  The 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension2024
- 著者名/発表者名
  Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama
- 学会等名
  The 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Multimodal Large Language Model Meets New Knowledge: A Preliminary Study2024
- 著者名/発表者名
  Junwen Mo, Jiaxuan Li, Duc Minh Vo, Hideki Nakayama
- 学会等名
  言語処理学会第30回年次大会 (NLP2024)
- 関連する報告書
  2023 実績報告書
[学会発表] Partition-and-Debias: Agnostic Biases Mitigation via a Mixture of Biases-Specific Experts2023
- 著者名/発表者名
  Jiaxuan Li, Duc Minh Vo, Hideki Nakayama
- 学会等名
  The 2023 IEEE/CVF International Conference on Computer Vision (ICCV)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] 暗黙的な変形場を用いた変形可能な3D敵対的生成ネットワーク2023
- 著者名/発表者名
  勝又海, Duc Minh Vo, 原田達也, 中山英樹
- 学会等名
  画像の認識・理解シンポジウム (MIRU2023)
- 関連する報告書
  2023 実績報告書
[備考] 東京大学中山英樹研究室研究紹介ページ
- URL
  https://www.nlab.ci.i.u-tokyo.ac.jp/projects.html
- 関連する報告書
  2023 実績報告書
[備考]
- URL
  https://github.com/Jiaxuan-Li/EVCap
- 関連する報告書
  2023 実績報告書
[備考]
- URL
  https://raven38.github.io/
- 関連する報告書
  2023 実績報告書

知識グラフを用いた内容計画に基づくストーリー動画生成法の研究

研究代表者

中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)

18,720千円 (直接経費: 14,400千円、間接経費: 4,320千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[国際共同研究] Microsoft Research Asia(中国)

関連する報告書

[雑誌論文] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Revisiting Latent Space of GAN Inversion for Robust Real Image Editing2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Enhanced Data Transfer Cooperating with Artificial Triplets for Scene Graph Generation2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Partition-and-Debias: Agnostic Biases Mitigation via A Mixture of Biases-Specific Experts2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Revisiting Latent Space of GAN Inversion for Robust Real Image Editing2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Multimodal Large Language Model Meets New Knowledge: A Preliminary Study2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Partition-and-Debias: Agnostic Biases Mitigation via a Mixture of Biases-Specific Experts2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 暗黙的な変形場を用いた変形可能な3D敵対的生成ネットワーク2023

著者名/発表者名

学会等名

関連する報告書

[備考] 東京大学 中山英樹研究室 研究紹介ページ

URL

関連する報告書

[備考]

URL

関連する報告書

[備考]

URL

関連する報告書

中山英樹東京大学, 大学院情報理工学系研究科, 准教授 (00643305)

[備考] 東京大学中山英樹研究室研究紹介ページ