Project/Area Number |
22KJ0923
|
Project/Area Number (Other) |
22J13934 (2022)
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund (2023) Single-year Grants (2022) |
Section | 国内 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
劉 暁寒 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2023-03-08 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥2,300,000 (Direct Cost: ¥2,300,000)
Fiscal Year 2023: ¥1,100,000 (Direct Cost: ¥1,100,000)
Fiscal Year 2022: ¥1,200,000 (Direct Cost: ¥1,200,000)
|
Keywords | 視線推定 / 拡散モデル / 顔ビデオ生成 / コンピュータビジョン / 顔画像生成 |
Outline of Research at the Start |
Face synthesis has become a fascinating yet challenging problem in computer vision and graphics. As a classic statistical model of 3D facial shape and albedo, the 3D Morphable Model (3DMM) is widely used in facial analysis. One of the most essential applications of 3DMMs is to generate synthetic training data. Unfortunately, existing 3DMMs cannot directly encode gaze information. To tackle this problem, this project designs a novel gaze-enabled nonlinear 3DMM and uses it to synthesize realistic face images with gaze labels.
|
Outline of Annual Research Achievements |
本年度の研究は、昨年度に提案された「視線軌道に基づく顔のビデオ生成に関する新しい研究方向」を推進することに重点を置いています。この研究の目的は、視線の動的変化を反映した自然な人物の顔ビデオを生成する技術を開発することです。この技術は映画製作、拡張現実(AR)、仮想現実(VR)などの分野での応用が期待されます。 初期段階で、視線(gaze)、頭部姿勢(head pose)、顔のランドマーク(landmarks)のデータアノテーションを含む拡張されたデータセットを用いて基礎分析を行いました。その後、単一の視線方向と参照画像を条件とする顔画像を生成するための拡散モデルの開発に成功しました。 さらに本研究では、時間的注意層を組み込んだモデルを開発し、顔のビデオ生成におけるフレーム間の自然な連続性を達成しました。この技術は、動的な視線変化を伴う人物の顔ビデオを生成する上で核心となるものです。 しかし、現在のビデオ生成技術では、特に背景の生成において品質の向上が必要とされています。現在のモデルは顔の動きや表情の自然な再現には成功していますが、背景部分が不自然に見えることがあり、これが全体のリアリズムを低下させています。今後の研究では、背景生成のアルゴリズムを改良し、より高品質なビデオ生成を目指します。 この研究の重要性は、自然な人間の振る舞いを模倣した顔のビデオを生成する能力にあり、既存の手法では解決できなかった課題に対処します。これにより、人間とコンピュータのインタラクション、VR、その他の領域での応用が期待されます。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究課題は、計画通りに多くの重要なマイルストーンを達成してきましたが、いくつかの技術的課題とリソースの制限により、予定よりもやや遅れています。具体的には、顔ビデオ生成モデルの品質、特に背景生成の精度に課題が残っています。 顔の表情や動きを再現する部分では良好な結果を得られていますが、背景の自然な生成にはまだ改善の余地があります。背景が不自然であると、ビデオ全体のリアリズムが著しく損なわれるため、この部分の改善は研究の重要な部分を占めています。また、計算資源の不足がこの問題の解決を遅らせており、モデルのトレーニングに必要な時間と労力が予想以上に大きくなっています。 以上の理由から、プロジェクトは予定よりもやや遅れている状態ですが、これらの課題に対処するための具体的な対策を講じており、今後の進捗に向けて積極的な取り組みを行っています。
|
Strategy for Future Research Activity |
本研究の成果をさらに向上させるため、以下の二つの主要な戦略を実施します。まず、生成モデルの改善に焦点を当て、ネットワーク構造の最適化と適切な先行知識の導入を通じて、生成されるビデオの質を向上させます。この改善により、背景生成を含む全体的なビデオ品質が大幅に改善されることが期待されます。 次に、計算資源の不足に対処するため、既に実績のある企業との協力関係を再構築します。このパートナーシップにより、より強力な計算リソースが確保され、これによって大規模なモデルのトレーニングが可能となります。これは、モデルの生成能力の向上に加え、トレーニングプロセスの加速化を可能にするため、非常に重要です。 これらの施策を通じて、研究の質を一層高め、よりリアルなビデオ生成を実現することを目指します。また、これらの技術進歩は、将来的に広範な応用が期待されるため、研究成果の社会的・学術的影響も拡大することでしょう。
|