研究領域 | 実世界の奥深い質感情報の分析と生成 |
研究課題/領域番号 |
21H05812
|
研究機関 | 電気通信大学 |
研究代表者 |
柳井 啓司 電気通信大学, 大学院情報理工学研究科, 教授 (20301179)
|
研究期間 (年度) |
2021-09-10 – 2023-03-31
|
キーワード | 深層学習 / 画像生成モデル / 基盤モデル / 画像・言語モデル |
研究実績の概要 |
本研究の当初の目的は,(1)大量の画像と言語のペアデータから画像の質感部分と言語の質感表現の対応付けを自動的に学習し,画像質感特徴量と言語質感特徴量の共通質感埋め込み空間を構築し,画像と言語の双方向検索(認識)を実現,(2)さらに質感埋め込みベクトルと画像の形状特徴量を融合させることによって,新たな質感を持つ画像生成を実現する,ことで,これを統一的に実現する深層学習モデルを提案することを目標としていた. これに対して,研究提案書作成後,画像言語クロスモーダル巨大モデルが公開され,状況が一変した.大学の研究設備では学習できないほどの巨大モデルを利用することで,これまで困難であった任意のテキストによる画像操作が可能となった.そこで,本年度は当初より計画していた(1)クロスモーダルレシピデータセットを用いて,言語と画像双方から埋め込み可能なレシピ情報空間中のレシピベクトルと,食事の形状特徴を融合させることで,任意形状のレシピ情報に基づく食事画像生成,に加えて,(2)事前学習済の画像・言語のクロスモーダル巨大モデルCLIPを用いて,画像の質感操作を実現し,その操作の度合を自由に制御する方法,(3)微分可能レンダラーを用いたフォント生成に対してCLIPを適用して,任意の言葉に対応したスタイルをもつフォント画像の生成手法,についても研究を行った.それぞれの研究について,一定の成果を得ることができ,論文投稿の準備を行うことができた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本課題の採択が8月末であり,実質的に半年間しか研究期間がなく,査読付き論文の発表は年度内に得られていないが,研究は進めることができ,翌年度の論文発表が期待できるだけの成果は得ることができた.
|
今後の研究の推進方策 |
今後は,現在の3つの中心的研究,(1)クロスモーダルレシピデータによる任意レシピの食事画像生成,(2)画像・言語のクロスモーダル巨大モデルCLIPを用いた画像の質感操作,(3)CLIPを利用した任意の言葉に対応したスタイルをもつフォント画像の生成手法,について引き続き研究を進め,論文投稿を行う.
|