研究領域 | 実世界の奥深い質感情報の分析と生成 |
研究課題/領域番号 |
21H05812
|
研究種目 |
学術変革領域研究(A)
|
配分区分 | 補助金 |
審査区分 |
学術変革領域研究区分(Ⅳ)
|
研究機関 | 電気通信大学 |
研究代表者 |
柳井 啓司 電気通信大学, 大学院情報理工学研究科, 教授 (20301179)
|
研究期間 (年度) |
2021-09-10 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
7,800千円 (直接経費: 6,000千円、間接経費: 1,800千円)
2022年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2021年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
|
キーワード | 深層学習 / 画像生成モデル / 基盤モデル / 画像・言語モデル / 質感 / 特徴分離 / 画像生成 |
研究開始時の研究の概要 |
本研究では,(1)大量の画像と言語のペアデータから画像の質感部分と言語の質感表現の対応付けを自動的に学習し,画像質感特徴量と言語質感特徴量の共通質感埋め込み空間を構築し,画像と言語の双方向検索(認識)を実現する.(2)さらに質感埋め込みベクトルと画像の形状特徴量を融合させることによって,新たな質感を持つ画像生成を実現する.これを統一的に実現する深層学習モデルを提案することが本研究の目的である.提案モデルを用いることで,(A) 大量のデータを用いた画像及び言語表現に関する「深奥な」質感分析の実現,(B) 言語による微妙な画像質感操作の実現,が可能となる.
|
研究実績の概要 |
本研究の当初の目的は,(1)大量の画像と言語のペアデータから画像の質感部分と言語の質感表現の対応付けを自動的に学習し,画像質感特徴量と言語質感特徴量の共通質感埋め込み空間を構築し,画像と言語の双方向検索(認識)を実現,(2)さらに質感埋め込みベクトルと画像の形状特徴量を融合させることによって,新たな質感を持つ画像生成を実現する,ことで,これを統一的に実現する深層学習モデルを提案することを目標としていた. これに対して,本研究では2年間の研究期間の間に,次の3点の研究成果を得た.(1)クロスモーダルレシピデータセットを用いて,言語と画像双方から埋め込み可能なレシピ情報空間中のレシピベクトルと,食事の形状特徴を融合させることで,任意形状のレシピ情報に基づく食事画像生成を実現した.(2)事前学習済の画像・言語のクロスモーダル巨大モデルCLIPを用いて,画像の質感操作を実現し,その操作の度合を自由に制御する方法を提案した.(3)微分可能レンダラーを用いたフォント生成に対してCLIPを適用して,任意の言葉に対応したスタイルをもつフォント画像の生成手法も提案した.
|
現在までの達成度 (段落) |
令和4年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和4年度が最終年度であるため、記入しない。
|