研究課題/領域番号 |
23K18468
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分60:情報科学、情報工学およびその関連分野
|
研究機関 | 慶應義塾大学 |
研究代表者 |
藤代 一成 慶應義塾大学, 理工学部(矢上), 教授 (00181347)
|
研究分担者 |
茅 暁陽 山梨大学, その他部局等, 理事 (20283195)
|
研究期間 (年度) |
2023-06-30 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2025年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2024年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2023年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
|
キーワード | ヴィネットイラスト / 要約 / メディア変換 / 深層学習 / 視線追跡 |
研究開始時の研究の概要 |
本研究では,最新の深層学習を利用して,与えられたビデオやゲームの世界観を圧倒的な情報圧縮率で可視化するヴィネットイラストを自動生成するシステムVigNet (Visual Generative Network)を開発する.個々のビューア/プレイヤが注目している元メディアの要素を無意識的に同定する目的で,視線追跡を活用する.さらに,イラスト要素の意味論的な位置決めや姿勢,表情,色調等の微調整に挑む.
|
研究実績の概要 |
ヴィネットイラストとは,エンタテイメント目的のアニメ映像作品やゲームの物語コンテンツを凝縮して表現した小型ジオラマのようなイラストをさす. 初年度の今年度は,Pinterest等に掲載されている約2万件に及ぶ事例を解析し,ヴィネットイラストが一般に,キャラクタ,ステージ,バックグラウンド,サポータ,エフェクトの5要素から構成されることがわかった.ここで,キャラクタとステージは必須要素である一方,バックグラウンド,サポータ,エフェクトは必要に応じて組み合わせ可能な要素である. 既存の動画要約技術の多くは要素の選択を主軸とするが,動画からヴィネットイラストへの変換は,要素の選択に加え,要素の位置決めや色調の微調整等が必要であり,より挑戦的である.近年では,自然言語を画像に変換する生成AIモデルが登場している.しかし,生成AIモデルは多様な画像の生成を得意とする一方で,入力や学習データの微小な変化に敏感なため,似たような条件下でも一貫した画像を生成することは不得手である.そのため,ビデオ→スクリプト→静止画のパスにそって,従来の生成モデルだけでユーザの意図した内容を含むヴィネットイラストを生成することは困難であり,動画処理や画像生成などの様々な手法を組み合わせる必要がある. 本研究では,セマンティックセグメンテーションと画像生成モデルの追加学習を利用することで,ユーザの嗜好を反映しながら,動画からヴィネットイラストを半自動的に生成するシステムとしてVigNet(Video Image Generative Network)を提案し,そのプロトタイピングを開発,具体的なフルCGアニメーション3例に適用し,的確なヴィネットイラストが作成できることを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初計画にあった,(1) ヴィネットイラストのオントロジー定義【2023年度】,(2) 深層学習アーキテクチャの開発【2023年度後半~2024年度前半】に相当する内容を達成している.
|
今後の研究の推進方策 |
1) 実アニメデータへの適用とユーザ評価実験によるVigNetシステムの評価と深層学習アーキテクチャの改善を継続する.
2) ヴィネットイラストへの変換の全自動化に向けて,アニメーション鑑賞中の視線追跡によって,注目オブジェクトやオブジェクト同士の関連性を同定することが必要となる.その頑健性確保に,現在並行して開発を進めているサリエンシーフィールドの微分位相解析の応用が有力と考えている.
3) 結果のヴィネットイラストに部分的に欠落したオブジェクトが不自然に含まれないようにするための工夫が必要である.フレームブレイク効果を利用した裸眼立体視システムで利用している,同一オブジェクトの連続フレーム追跡技術を転用する予定である.
|