2023 Fiscal Year Research-status Report
視線変動を考慮した3次元顔モーファブルモデルと顔画像合成
Project/Area Number |
22KJ0923
|
Allocation Type | Multi-year Fund |
Research Institution | The University of Tokyo |
Principal Investigator |
劉 暁寒 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2023-03-08 – 2025-03-31
|
Keywords | 視線推定 / 拡散モデル / 顔ビデオ生成 / コンピュータビジョン |
Outline of Annual Research Achievements |
本年度の研究は、昨年度に提案された「視線軌道に基づく顔のビデオ生成に関する新しい研究方向」を推進することに重点を置いています。この研究の目的は、視線の動的変化を反映した自然な人物の顔ビデオを生成する技術を開発することです。この技術は映画製作、拡張現実(AR)、仮想現実(VR)などの分野での応用が期待されます。 初期段階で、視線(gaze)、頭部姿勢(head pose)、顔のランドマーク(landmarks)のデータアノテーションを含む拡張されたデータセットを用いて基礎分析を行いました。その後、単一の視線方向と参照画像を条件とする顔画像を生成するための拡散モデルの開発に成功しました。 さらに本研究では、時間的注意層を組み込んだモデルを開発し、顔のビデオ生成におけるフレーム間の自然な連続性を達成しました。この技術は、動的な視線変化を伴う人物の顔ビデオを生成する上で核心となるものです。 しかし、現在のビデオ生成技術では、特に背景の生成において品質の向上が必要とされています。現在のモデルは顔の動きや表情の自然な再現には成功していますが、背景部分が不自然に見えることがあり、これが全体のリアリズムを低下させています。今後の研究では、背景生成のアルゴリズムを改良し、より高品質なビデオ生成を目指します。 この研究の重要性は、自然な人間の振る舞いを模倣した顔のビデオを生成する能力にあり、既存の手法では解決できなかった課題に対処します。これにより、人間とコンピュータのインタラクション、VR、その他の領域での応用が期待されます。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究課題は、計画通りに多くの重要なマイルストーンを達成してきましたが、いくつかの技術的課題とリソースの制限により、予定よりもやや遅れています。具体的には、顔ビデオ生成モデルの品質、特に背景生成の精度に課題が残っています。 顔の表情や動きを再現する部分では良好な結果を得られていますが、背景の自然な生成にはまだ改善の余地があります。背景が不自然であると、ビデオ全体のリアリズムが著しく損なわれるため、この部分の改善は研究の重要な部分を占めています。また、計算資源の不足がこの問題の解決を遅らせており、モデルのトレーニングに必要な時間と労力が予想以上に大きくなっています。 以上の理由から、プロジェクトは予定よりもやや遅れている状態ですが、これらの課題に対処するための具体的な対策を講じており、今後の進捗に向けて積極的な取り組みを行っています。
|
Strategy for Future Research Activity |
本研究の成果をさらに向上させるため、以下の二つの主要な戦略を実施します。まず、生成モデルの改善に焦点を当て、ネットワーク構造の最適化と適切な先行知識の導入を通じて、生成されるビデオの質を向上させます。この改善により、背景生成を含む全体的なビデオ品質が大幅に改善されることが期待されます。 次に、計算資源の不足に対処するため、既に実績のある企業との協力関係を再構築します。このパートナーシップにより、より強力な計算リソースが確保され、これによって大規模なモデルのトレーニングが可能となります。これは、モデルの生成能力の向上に加え、トレーニングプロセスの加速化を可能にするため、非常に重要です。 これらの施策を通じて、研究の質を一層高め、よりリアルなビデオ生成を実現することを目指します。また、これらの技術進歩は、将来的に広範な応用が期待されるため、研究成果の社会的・学術的影響も拡大することでしょう。
|
Causes of Carryover |
当初計画では、視線軌道に基づく顔のビデオ生成モデルのトレーニングを完了する予定でしたが、計算資源の不足により、進捗が遅れました。具体的には、既存のデータセットの拡張や新たなデータセットの作成に時間を要し、また、動画生成モデルのトレーニングにおいても、必要な計算能力が不足していたため、全ての研究計画を完了できませんでした。このため、次年度に使用するための未使用額が生じました。 次年度には、以下の計画を実行する予定です: 1. 計算資源の確保と最適化:企業との協力を再度模索し、計算資源を確保します。これにより、より大規模なモデルのトレーニングが可能となり、生成品質の向上が期待されます。2. モデルの改良:ネットワーク構造の最適化と適切な先験知識の導入により、生成ビデオの品質を向上させます。3. 追加データ収集と解析:既存のデータセットに新たな視線と頭部ポーズのデータを追加し、モデルの精度向上を図ります。また、収集したデータの解析を行い、視線と頭部ポーズの関係をより深く理解します。以上の計画を通じて、研究の進展を加速させ、目標とする成果を達成することを目指します。
|