自然言語に紐づいて構造化された表現に基づく画像生成基盤の確立
Project/Area Number |
21K17806
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
品川 政太朗 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
|
Keywords | 構造化された表現 / 対話システム / 自然言語処理 / Vision and Language / Visual Dialog / Transformer / text-to-image / 画像生成 / 深層学習 |
Outline of Research at the Start |
自然言語の入力クエリに沿った画像を出力する深層画像生成モデルを、広告やイラスト、服装といったデザインの制作に応用するには、人間のユーザが思い通りの画像を生成する際の制御の難しさを解決する必要がある。本研究の目的は、生成対象となる物体の各部位、形、色に対応する単語情報に沿って半自動的に構築されるグラフによる潜在表現を深層画像生成モデルに導入した画像生成基盤を確立することである。これにより、操作が未経験のユーザでも、自然に思い通りの画像生成が行えることを示す。
|
Outline of Annual Research Achievements |
2022年度は、国際会議1件、国内学会発表2件を行った。 国際会議発表1件は、自然言語で構造化された表現による対話型推薦システムの研究である。アイテムの説明文を特徴量抽出した推薦アイテムの表現をジャンルごとに足し合わせた表現をジャンルの表現とすることで階層的な表現を構築し、システム利用者が潜在的に興味を持つアイテムも推薦できる可能性を示唆する結果を得られた。本手法は、画像生成においても、自然言語による構造化された表現の関係性によって、テキストに含まれない潜在的情報を検知できることを期待できる結果を得られたと言える。 国内学会発表の1件目は、言語モデルへの条件付けとなる情報の選択方法に関する研究である。本研究では、文により指定される個性を反映させる対話システムの文脈において、文レベルと名詞レベルの類似度による情報選択手法を比較し、名詞レベルの類似度が効果的である可能性を示した。自然言語に紐づけられた画像生成は短い言語記述では画像のすべてを説明することが困難であるという問題を抱えており、不足する情報をどのように補うかが鍵になる。本研究の知見は、限られた記述文から構造化された言語表現を得るために文レベルの類似度と名詞レベルの類似度を使い分けるといった応用に利用できる可能性がある。 国内学会発表の2件目は、機械が人間に何度か質問を行い、画像中の指定された物体を当てる課題において、人間のミスにより物体当てが失敗した場合に、人間に間違いを指摘する方法の提案である。人間の指示が目標と異なるという状況は自然言語に紐づく画像生成にも考えられるため、自然言語に紐づけられた画像生成基盤に取り入れる必要のある機能であると考えられる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2022年度は国際会議1件、国内学会発表3件(実質的には2件)を行うことができ、本プロジェクトにおいて有意義な結果を得られた。本プロジェクトにおける「課題①:自然言語(単語)とグラフ構造の潜在表現をどのように対応付けるか?」および「課題②:人間には弁別が難しい生成画像をどのように評価するか?」についても研究を進め、3件の論文を国内学会に投稿中である。 課題①については、自然言語とグラフ構造の潜在表現の探究の方法として、物体と物体の位置関係をグラフ関係により表現できるシーングラフ構造を用いて実験を進めている。利用するモデルには近年新たに提案された拡散モデルによる汎用的かつ安定した画像生成モデルを用いる方針で実験を進めており、本研究の課題目標も十分達成可能な範囲にあると見込んでいる。 課題②については、シーングラフを用いた画像評価や多様性の観点からの画像評価についての研究を進めている。前者は物体の存在や位置を考慮した評価を行うため、後者は多様性という観点から弁別する基準を考えることができると考えている。
|
Strategy for Future Research Activity |
おおまかな方針についての変更はない。課題①に関しては引き続きシーングラフと拡散モデルを用いつつ実験を進める。ただし、シーングラフは扱える物体の種類や関係性が限られているという課題があり、それらをどのように拡張して利用できるかについて研究を進める必要がある。これは課題③の教師なしによるグラフ構造の構築にも関わる課題であり、計画当初の案を適用して課題③と同時に解決を図る。課題②についてはシーングラフによる評価と多様性による評価方法を最終的には統合してよりよい評価方法を考案することを目指して引き続き研究を進める。
|
Report
(2 results)
Research Products
(7 results)