Publicly Offered Research
Grant-in-Aid for Transformative Research Areas (A)
本研究では,(1)大量の画像と言語のペアデータから画像の質感部分と言語の質感表現の対応付けを自動的に学習し,画像質感特徴量と言語質感特徴量の共通質感埋め込み空間を構築し,画像と言語の双方向検索(認識)を実現する.(2)さらに質感埋め込みベクトルと画像の形状特徴量を融合させることによって,新たな質感を持つ画像生成を実現する.これを統一的に実現する深層学習モデルを提案することが本研究の目的である.提案モデルを用いることで,(A) 大量のデータを用いた画像及び言語表現に関する「深奥な」質感分析の実現,(B) 言語による微妙な画像質感操作の実現,が可能となる.
本研究の当初の目的は,(1)大量の画像と言語のペアデータから画像の質感部分と言語の質感表現の対応付けを自動的に学習し,画像質感特徴量と言語質感特徴量の共通質感埋め込み空間を構築し,画像と言語の双方向検索(認識)を実現,(2)さらに質感埋め込みベクトルと画像の形状特徴量を融合させることによって,新たな質感を持つ画像生成を実現する,ことで,これを統一的に実現する深層学習モデルを提案することを目標としていた.これに対して,本研究では2年間の研究期間の間に,次の3点の研究成果を得た.(1)クロスモーダルレシピデータセットを用いて,言語と画像双方から埋め込み可能なレシピ情報空間中のレシピベクトルと,食事の形状特徴を融合させることで,任意形状のレシピ情報に基づく食事画像生成を実現した.(2)事前学習済の画像・言語のクロスモーダル巨大モデルCLIPを用いて,画像の質感操作を実現し,その操作の度合を自由に制御する方法を提案した.(3)微分可能レンダラーを用いたフォント生成に対してCLIPを適用して,任意の言葉に対応したスタイルをもつフォント画像の生成手法も提案した.
令和4年度が最終年度であるため、記入しない。
All 2023 2022 2021
All Journal Article (2 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results, Open Access: 2 results) Presentation (15 results) (of which Int'l Joint Research: 12 results)
Sensors
Volume: 22 Issue: 19 Pages: 7317-7317
10.3390/s22197317
IEEE Transactions on Intelligent Transportation Systems
Volume: - Issue: 9 Pages: 1-12
10.1109/tits.2021.3127553