Multi-modal Deep Learning Model by Disentangling Shape and Style for Analysis of Deep 'SHITSUKAN' Analysis and Synthesis
Publicly Offered Research
Project Area | Analysis and synthesis of deep SHITSUKAN information in the real world |
Project/Area Number |
21H05812
|
Research Category |
Grant-in-Aid for Transformative Research Areas (A)
|
Allocation Type | Single-year Grants |
Review Section |
Transformative Research Areas, Section (IV)
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
柳井 啓司 電気通信大学, 大学院情報理工学研究科, 教授 (20301179)
|
Project Period (FY) |
2021-09-10 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥7,800,000 (Direct Cost: ¥6,000,000、Indirect Cost: ¥1,800,000)
Fiscal Year 2022: ¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2021: ¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
|
Keywords | 深層学習 / 画像生成モデル / 基盤モデル / 画像・言語モデル / 質感 / 特徴分離 / 画像生成 |
Outline of Research at the Start |
本研究では,(1)大量の画像と言語のペアデータから画像の質感部分と言語の質感表現の対応付けを自動的に学習し,画像質感特徴量と言語質感特徴量の共通質感埋め込み空間を構築し,画像と言語の双方向検索(認識)を実現する.(2)さらに質感埋め込みベクトルと画像の形状特徴量を融合させることによって,新たな質感を持つ画像生成を実現する.これを統一的に実現する深層学習モデルを提案することが本研究の目的である.提案モデルを用いることで,(A) 大量のデータを用いた画像及び言語表現に関する「深奥な」質感分析の実現,(B) 言語による微妙な画像質感操作の実現,が可能となる.
|
Outline of Annual Research Achievements |
本研究の当初の目的は,(1)大量の画像と言語のペアデータから画像の質感部分と言語の質感表現の対応付けを自動的に学習し,画像質感特徴量と言語質感特徴量の共通質感埋め込み空間を構築し,画像と言語の双方向検索(認識)を実現,(2)さらに質感埋め込みベクトルと画像の形状特徴量を融合させることによって,新たな質感を持つ画像生成を実現する,ことで,これを統一的に実現する深層学習モデルを提案することを目標としていた. これに対して,本研究では2年間の研究期間の間に,次の3点の研究成果を得た.(1)クロスモーダルレシピデータセットを用いて,言語と画像双方から埋め込み可能なレシピ情報空間中のレシピベクトルと,食事の形状特徴を融合させることで,任意形状のレシピ情報に基づく食事画像生成を実現した.(2)事前学習済の画像・言語のクロスモーダル巨大モデルCLIPを用いて,画像の質感操作を実現し,その操作の度合を自由に制御する方法を提案した.(3)微分可能レンダラーを用いたフォント生成に対してCLIPを適用して,任意の言葉に対応したスタイルをもつフォント画像の生成手法も提案した.
|
Research Progress Status |
令和4年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和4年度が最終年度であるため、記入しない。
|
Report
(2 results)
Research Products
(17 results)