自然言語に紐づいて構造化された表現に基づく画像生成基盤の確立

Research Project

Project/Area Number	21K17806
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Nara Institute of Science and Technology
Principal Investigator	品川政太朗奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)
Project Period (FY)	2021-04-01 – 2024-03-31
Project Status	Granted (Fiscal Year 2022)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2021: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Keywords	構造化された表現 / 対話システム / 自然言語処理 / Vision and Language / Visual Dialog / Transformer / text-to-image / 画像生成 / 深層学習
Outline of Research at the Start	自然言語の入力クエリに沿った画像を出力する深層画像生成モデルを、広告やイラスト、服装といったデザインの制作に応用するには、人間のユーザが思い通りの画像を生成する際の制御の難しさを解決する必要がある。本研究の目的は、生成対象となる物体の各部位、形、色に対応する単語情報に沿って半自動的に構築されるグラフによる潜在表現を深層画像生成モデルに導入した画像生成基盤を確立することである。これにより、操作が未経験のユーザでも、自然に思い通りの画像生成が行えることを示す。
Outline of Annual Research Achievements	2022年度は、国際会議１件、国内学会発表2件を行った。国際会議発表１件は、自然言語で構造化された表現による対話型推薦システムの研究である。アイテムの説明文を特徴量抽出した推薦アイテムの表現をジャンルごとに足し合わせた表現をジャンルの表現とすることで階層的な表現を構築し、システム利用者が潜在的に興味を持つアイテムも推薦できる可能性を示唆する結果を得られた。本手法は、画像生成においても、自然言語による構造化された表現の関係性によって、テキストに含まれない潜在的情報を検知できることを期待できる結果を得られたと言える。国内学会発表の１件目は、言語モデルへの条件付けとなる情報の選択方法に関する研究である。本研究では、文により指定される個性を反映させる対話システムの文脈において、文レベルと名詞レベルの類似度による情報選択手法を比較し、名詞レベルの類似度が効果的である可能性を示した。自然言語に紐づけられた画像生成は短い言語記述では画像のすべてを説明することが困難であるという問題を抱えており、不足する情報をどのように補うかが鍵になる。本研究の知見は、限られた記述文から構造化された言語表現を得るために文レベルの類似度と名詞レベルの類似度を使い分けるといった応用に利用できる可能性がある。国内学会発表の2件目は、機械が人間に何度か質問を行い、画像中の指定された物体を当てる課題において、人間のミスにより物体当てが失敗した場合に、人間に間違いを指摘する方法の提案である。人間の指示が目標と異なるという状況は自然言語に紐づく画像生成にも考えられるため、自然言語に紐づけられた画像生成基盤に取り入れる必要のある機能であると考えられる。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 2022年度は国際会議１件、国内学会発表3件（実質的には2件）を行うことができ、本プロジェクトにおいて有意義な結果を得られた。本プロジェクトにおける「課題①：自然言語（単語）とグラフ構造の潜在表現をどのように対応付けるか？」および「課題②：人間には弁別が難しい生成画像をどのように評価するか？」についても研究を進め、3件の論文を国内学会に投稿中である。課題①については、自然言語とグラフ構造の潜在表現の探究の方法として、物体と物体の位置関係をグラフ関係により表現できるシーングラフ構造を用いて実験を進めている。利用するモデルには近年新たに提案された拡散モデルによる汎用的かつ安定した画像生成モデルを用いる方針で実験を進めており、本研究の課題目標も十分達成可能な範囲にあると見込んでいる。課題②については、シーングラフを用いた画像評価や多様性の観点からの画像評価についての研究を進めている。前者は物体の存在や位置を考慮した評価を行うため、後者は多様性という観点から弁別する基準を考えることができると考えている。
Strategy for Future Research Activity	おおまかな方針についての変更はない。課題①に関しては引き続きシーングラフと拡散モデルを用いつつ実験を進める。ただし、シーングラフは扱える物体の種類や関係性が限られているという課題があり、それらをどのように拡張して利用できるかについて研究を進める必要がある。これは課題③の教師なしによるグラフ構造の構築にも関わる課題であり、計画当初の案を適用して課題③と同時に解決を図る。課題②についてはシーングラフによる評価と多様性による評価方法を最終的には統合してよりよい評価方法を考案することを目指して引き続き研究を進める。

Report

(2 results)

2022 Research-status Report
2021 Research-status Report

Research Products
(7 results)

All 2023 2021

All Presentation (6 results) (of which Int'l Joint Research: 1 results, Invited: 2 results) Book (1 results)

[Presentation] Modeling Multiple User Interests using Hierarchical Knowledge for Conversational Recommender System2023
- Author(s)
  Yuka Okuda, Katsuhito Sudoh, Seitaro Shinagawa and Satoshi Nakamura
- Organizer
  The 13th International Workshop on Spoken Dialogue Systems Technology
- Related Report
  2022 Research-status Report
- Int'l Joint Research
[Presentation] ペルソナ更新型対話システムにおける効果的なペルソナ選択手法の分析2023
- Author(s)
  吉田快, 品川政太朗, 須藤克仁, 中村哲
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Research-status Report
[Presentation] 視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討2023
- Author(s)
  大島遼祐, 品川政太朗, 綱島秀樹, 森島繁生
- Organizer
  情報処理学会全国大会
- Related Report
  2022 Research-status Report
[Presentation] 視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討2023
- Author(s)
  大島遼祐, 品川政太朗, 綱島秀樹, 森島繁生
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Research-status Report
[Presentation] Vision and Languageと分野を取り巻く深層学習手法の紹介2021
- Author(s)
  品川政太朗
- Organizer
  自然言語処理研究会（IPSJ-NL）、コンピュータビジョンとイメージメディア研究会（IPSJ-CVIM）、パターン認識・メディア理解研究会（PRMU）合同研究会
- Related Report
  2021 Research-status Report
- Invited
[Presentation] Transformerの変遷と発展2021
- Author(s)
  品川政太朗, Qiu Yue, 山本晋太郎
- Organizer
  Vision Engineering Workshop (ViEW)
- Related Report
  2021 Research-status Report
- Invited
[Book] コンピュータビジョン最前線　Winter 2021 (品川分担：ニュウモンVision & Language (p.78~128))2021
- Author(s)
  井尻善久、牛久祥孝、片岡裕雄、藤吉弘亘編、品川政太朗(分担執筆者)
- Total Pages
  130
- Publisher
  共立出版
- ISBN
  9784320125421
- Related Report
  2021 Research-status Report

自然言語に紐づいて構造化された表現に基づく画像生成基盤の確立

Principal Investigator

品川 政太朗 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)

¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] Modeling Multiple User Interests using Hierarchical Knowledge for Conversational Recommender System2023

Author(s)

Organizer

Related Report

[Presentation] ペルソナ更新型対話システムにおける効果的なペルソナ選択手法の分析2023

Author(s)

Organizer

Related Report

[Presentation] 視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討2023

Author(s)

Organizer

Related Report

[Presentation] 視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討2023

Author(s)

Organizer

Related Report

[Presentation] Vision and Languageと分野を取り巻く深層学習手法の紹介2021

Author(s)

Organizer

Related Report

[Presentation] Transformerの変遷と発展2021

Author(s)

Organizer

Related Report

[Book] コンピュータビジョン最前線 Winter 2021 (品川分担：ニュウモンVision & Language (p.78~128))2021

Author(s)

Total Pages

Publisher

ISBN

Related Report

品川政太朗奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)

[Book] コンピュータビジョン最前線　Winter 2021 (品川分担：ニュウモンVision & Language (p.78~128))2021