2022 Fiscal Year Annual Research Report
A Gaze-enabled 3D Face Morphable Model and Applications for Face Image Synthesis
Project/Area Number |
22J13934
|
Allocation Type | Single-year Grants |
Research Institution | The University of Tokyo |
Principal Investigator |
劉 暁寒 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2022-04-22 – 2024-03-31
|
Keywords | 視線推定 / 顔画像生成 / コンピュータビジョン |
Outline of Annual Research Achievements |
本年度は新型コロナウイルス感染症の影響により特別研究員採用中断を申請しましたが、私は中国のTencent公司で研究インターンシップとして参加し、菅野先生と張博士の共同指導下で、顔画像生成に関する研究を行いました。これらの研究活動は、本課題「一回撮影で自由視点の話者顔動画生成」と密切に関連しています。「話者顔動画生成」は、単一または複数の静止画から、自然な口の動きや表情の変化を含む動画を生成する研究領域です。
具体的には、私はStyleSDFとStyleNeRFの隠れた空間編集ネットワークの設計に取り組みました。これら二つの方法を比較した結果、StyleNeRFはより優れた隠れた空間編集特性を持つことが明らかとなりました。また、隠れた空間編集ネットワークの学習に使用するためのデータセットを作成しました。具体的には、StyleNeRFを用いて原始画像を生成し、各人物IDに対して5つの異なる頭部姿勢の1024x1024解像度の顔画像、そして該ID対応の隠れた空間コードと各画像に対応するカメラ姿勢を含みました。次に、PIRenderを使用して原始画像に表情編集を加え、各頭部姿勢に対して多様な表情の顔画像再現を生成しました。最後にはGPENを用いて画像の超解像処理を行い、1024x1024の画像を得ました。得られたデータセットを使用して、StyleNeRFの隠れた空間編集ネットワークを訓練しました。このネットワークは原始隠れた空間コードと3DMM表情パラメータの差を入力として、隠れた空間コードの偏移量を出力します。これにより、StyleNeRF生成の顔画像の表情の修正が可能となります。
以上の研究は本課題と深く関連しており、研究成果の生産に大きく貢献しております。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
特別研究員採用中断に伴い、中国に滞在していたため、研究所の施設やリソースへのアクセスが制限される状況でした。しかしながら、中国のTencent社でのインターンシップ期間中に行った話者顔動画生成に関する研究は、本研究課題と深く関連しており、間接的に本課題への進展をもたらしています。
現在、効果的な研究手法や方向性を検討し、遅れを取り戻すよう計画の見直しを行っています。特別研究員採用中断からの復帰後、特別研究員奨励費を利用して研究活動を再開し、研究計画に従って進める予定です。今後の進捗状況については、適切な対応を行い、研究成果を目指してまいります。ご理解とご支援をお願い申し上げます。
|
Strategy for Future Research Activity |
特別研究員採用中断期間に新たな技術としてChatGPTやDiffusionモデルが登場しました。また、視線推定領域の最新研究が進んだことから、それらの進展とTencent社でのインターンシップ経験を活かし、視線軌道に基づく顔のビデオ生成に関する新しい研究方向を推進していきます。具体的には以下の方法で研究を推進します: 1. データセット作成:視線方向と頭部ポーズの対応関係を記録した新たなデータセットを作成します。これは、既存のビデオデータセット(例えばVoxCeleb2)に対して視線推定と頭部ポーズ推定技術を適用することで実現できます。 2. データ解析:新しく作成したデータセットを解析し、視線方向と頭部ポーズの関係を理解します。視線方向と頭部ポーズの分布を視覚化します。この解析は生成モデルの開発に役立てます。 3. モデル開発:与えられた視線軌道に正確に従う自然な顔のビデオを生成することができる生成モデルを開発します。これには、Diffusionモデルや変分自己符号化器(VAEs)などの最新の生成モデルを探求することが含まれます。 4. 結果評価:生成された画像の「自然さ」を定義し、測定するためのユーザースタディや定量的な評価指標の開発が必要です。モデルが自然な顔のビデオを正確に生成できる能力を評価するための適切な評価指標と手順を開発します。 今後、我々はこれらの研究方法に従い、研究を推進していきます。新しい技術を取り入れ、新たな視点から研究を進めることで、これまでにない成果を目指します。
|