自然言語に紐づいて構造化された表現に基づく画像生成基盤の確立

研究課題

研究課題/領域番号	21K17806
研究種目	若手研究
配分区分	基金
審査区分	小区分61030:知能情報学関連
研究機関	奈良先端科学技術大学院大学
研究代表者	品川政太朗奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	交付 (2022年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2021年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
キーワード	構造化された表現 / 対話システム / 自然言語処理 / Vision and Language / Visual Dialog / Transformer / text-to-image / 画像生成 / 深層学習
研究開始時の研究の概要	自然言語の入力クエリに沿った画像を出力する深層画像生成モデルを、広告やイラスト、服装といったデザインの制作に応用するには、人間のユーザが思い通りの画像を生成する際の制御の難しさを解決する必要がある。本研究の目的は、生成対象となる物体の各部位、形、色に対応する単語情報に沿って半自動的に構築されるグラフによる潜在表現を深層画像生成モデルに導入した画像生成基盤を確立することである。これにより、操作が未経験のユーザでも、自然に思い通りの画像生成が行えることを示す。
研究実績の概要	2022年度は、国際会議１件、国内学会発表2件を行った。国際会議発表１件は、自然言語で構造化された表現による対話型推薦システムの研究である。アイテムの説明文を特徴量抽出した推薦アイテムの表現をジャンルごとに足し合わせた表現をジャンルの表現とすることで階層的な表現を構築し、システム利用者が潜在的に興味を持つアイテムも推薦できる可能性を示唆する結果を得られた。本手法は、画像生成においても、自然言語による構造化された表現の関係性によって、テキストに含まれない潜在的情報を検知できることを期待できる結果を得られたと言える。国内学会発表の１件目は、言語モデルへの条件付けとなる情報の選択方法に関する研究である。本研究では、文により指定される個性を反映させる対話システムの文脈において、文レベルと名詞レベルの類似度による情報選択手法を比較し、名詞レベルの類似度が効果的である可能性を示した。自然言語に紐づけられた画像生成は短い言語記述では画像のすべてを説明することが困難であるという問題を抱えており、不足する情報をどのように補うかが鍵になる。本研究の知見は、限られた記述文から構造化された言語表現を得るために文レベルの類似度と名詞レベルの類似度を使い分けるといった応用に利用できる可能性がある。国内学会発表の2件目は、機械が人間に何度か質問を行い、画像中の指定された物体を当てる課題において、人間のミスにより物体当てが失敗した場合に、人間に間違いを指摘する方法の提案である。人間の指示が目標と異なるという状況は自然言語に紐づく画像生成にも考えられるため、自然言語に紐づけられた画像生成基盤に取り入れる必要のある機能であると考えられる。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 2022年度は国際会議１件、国内学会発表3件（実質的には2件）を行うことができ、本プロジェクトにおいて有意義な結果を得られた。本プロジェクトにおける「課題①：自然言語（単語）とグラフ構造の潜在表現をどのように対応付けるか？」および「課題②：人間には弁別が難しい生成画像をどのように評価するか？」についても研究を進め、3件の論文を国内学会に投稿中である。課題①については、自然言語とグラフ構造の潜在表現の探究の方法として、物体と物体の位置関係をグラフ関係により表現できるシーングラフ構造を用いて実験を進めている。利用するモデルには近年新たに提案された拡散モデルによる汎用的かつ安定した画像生成モデルを用いる方針で実験を進めており、本研究の課題目標も十分達成可能な範囲にあると見込んでいる。課題②については、シーングラフを用いた画像評価や多様性の観点からの画像評価についての研究を進めている。前者は物体の存在や位置を考慮した評価を行うため、後者は多様性という観点から弁別する基準を考えることができると考えている。
今後の研究の推進方策	おおまかな方針についての変更はない。課題①に関しては引き続きシーングラフと拡散モデルを用いつつ実験を進める。ただし、シーングラフは扱える物体の種類や関係性が限られているという課題があり、それらをどのように拡張して利用できるかについて研究を進める必要がある。これは課題③の教師なしによるグラフ構造の構築にも関わる課題であり、計画当初の案を適用して課題③と同時に解決を図る。課題②についてはシーングラフによる評価と多様性による評価方法を最終的には統合してよりよい評価方法を考案することを目指して引き続き研究を進める。

報告書

(2件)

2022 実施状況報告書
2021 実施状況報告書

研究成果
(7件)

すべて 2023 2021

すべて学会発表 (6件) (うち国際学会 1件、招待講演 2件) 図書 (1件)

[学会発表] Modeling Multiple User Interests using Hierarchical Knowledge for Conversational Recommender System2023
- 著者名/発表者名
  Yuka Okuda, Katsuhito Sudoh, Seitaro Shinagawa and Satoshi Nakamura
- 学会等名
  The 13th International Workshop on Spoken Dialogue Systems Technology
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] ペルソナ更新型対話システムにおける効果的なペルソナ選択手法の分析2023
- 著者名/発表者名
  吉田快, 品川政太朗, 須藤克仁, 中村哲
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討2023
- 著者名/発表者名
  大島遼祐, 品川政太朗, 綱島秀樹, 森島繁生
- 学会等名
  情報処理学会全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討2023
- 著者名/発表者名
  大島遼祐, 品川政太朗, 綱島秀樹, 森島繁生
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] Vision and Languageと分野を取り巻く深層学習手法の紹介2021
- 著者名/発表者名
  品川政太朗
- 学会等名
  自然言語処理研究会（IPSJ-NL）、コンピュータビジョンとイメージメディア研究会（IPSJ-CVIM）、パターン認識・メディア理解研究会（PRMU）合同研究会
- 関連する報告書
  2021 実施状況報告書
- 招待講演
[学会発表] Transformerの変遷と発展2021
- 著者名/発表者名
  品川政太朗, Qiu Yue, 山本晋太郎
- 学会等名
  Vision Engineering Workshop (ViEW)
- 関連する報告書
  2021 実施状況報告書
- 招待講演
[図書] コンピュータビジョン最前線　Winter 2021 (品川分担：ニュウモンVision & Language (p.78~128))2021
- 著者名/発表者名
  井尻善久、牛久祥孝、片岡裕雄、藤吉弘亘編、品川政太朗(分担執筆者)
- 総ページ数
  130
- 出版者
  共立出版
- ISBN
  9784320125421
- 関連する報告書
  2021 実施状況報告書

自然言語に紐づいて構造化された表現に基づく画像生成基盤の確立

研究代表者

品川 政太朗 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)

4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] Modeling Multiple User Interests using Hierarchical Knowledge for Conversational Recommender System2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] ペルソナ更新型対話システムにおける効果的なペルソナ選択手法の分析2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Vision and Languageと分野を取り巻く深層学習手法の紹介2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transformerの変遷と発展2021

著者名/発表者名

学会等名

関連する報告書

[図書] コンピュータビジョン最前線 Winter 2021 (品川分担：ニュウモンVision & Language (p.78~128))2021

著者名/発表者名

総ページ数

出版者

ISBN

関連する報告書

品川政太朗奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)

[図書] コンピュータビジョン最前線　Winter 2021 (品川分担：ニュウモンVision & Language (p.78~128))2021