2021 年度実施状況報告書

自然言語に紐づいて構造化された表現に基づく画像生成基盤の確立

研究課題

研究課題/領域番号	21K17806
研究機関	奈良先端科学技術大学院大学
研究代表者	品川政太朗奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	Vision and Language / Transformer / text-to-image
研究実績の概要	2021年度は、2022年度前半期までの目標として、「課題①：自然言語（単語）とグラフ構造の潜在表現をどのように対応付けるか？」および「課題②：人間には弁別が難しい生成画像をどのように評価するか？」について検討を行った。課題①に関して、画像にタグ付けされたラベル情報に基づいてグラフ構造を構築し、自然言語からの画像生成モデルを作成して実験を行ったが、現状十分な性能が得られていない。この原因としては、当初予定していたデータセットに含まれる画像やラベル情報に含まれるノイズが大きく影響していることが考えられるため、まず生成対象を絞り、一般物体によるシーン生成において検証を行うことから始める必要性があることが分かった。今後は一般物体によるシーン画像を表現できるグラフ表現であるシーングラフを利用することで、さらに検証を進める予定である。課題①および課題②に関して、近年盛んに研究が進められているTransformerを利用したモデリングが適当であると考え、そのサーベイと初期検討を行った。サーベイは広範かつ網羅的に行うため、cvpaper.challengeと呼ばれる研究コミュニティにおいて、奈良先端大、産総研、早稲田大など、複数の研究機関から有志を募ってサーベイグループを組織し、TransformerおよびVision and Languageについてのサーベイを実施した。このサーベイの成果は、国内の学会や研究会においてTransformerやVision and Languageの招待講演やチュートリアル講演として2件の発表を行い、また書籍の一章として書籍化を行うことによって国内の研究コミュニティに貢献した。また、研究遂行のための情報収集の一環として国内学会および国際会議に聴講参加し、最新研究の情報収集に努めた。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由 2021年度は当初想定していたエフォートを確保できず、全体の作業としては当初の予定よりやや遅れが生じた。反面、近年Vision and Languageの研究分野にはこの一年で目覚ましい進展があり、学内外の研究活動を通して十分な情報収集と利用するモデルの検討を行うことができた。２年目前半期までの目標として、潜在表現の固定のグラフ構造を仮定した上で自然言語を紐づける学習の実験については現在進行中であり、全体の計画の進行に関して大きな問題はないと考えている。
今後の研究の推進方策	２年目前半期までは、当初の計画通り、潜在表現の固定のグラフ構造を仮定した上で自然言語を紐づける学習の実験を進める予定である。これが済み次第、潜在表現のグラフ構造を学習から自動的に構築する方法についての研究を進める予定である。
次年度使用額が生じた理由	計画の進行状況の遅延により、評価に利用する人件費・謝金、および旅費が未使用となったため。次年度にはこれらへの利用、もしくはクライドコンピューティングリソースの利用の目的に使用する予定である。

研究成果
(3件)

すべて 2021

すべて学会発表 (2件) (うち招待講演 2件) 図書 (1件)

[学会発表] Vision and Languageと分野を取り巻く深層学習手法の紹介2021
- 著者名/発表者名
  品川政太朗
- 学会等名
  自然言語処理研究会（IPSJ-NL）、コンピュータビジョンとイメージメディア研究会（IPSJ-CVIM）、パターン認識・メディア理解研究会（PRMU）合同研究会
- 招待講演
[学会発表] Transformerの変遷と発展2021
- 著者名/発表者名
  品川政太朗, Qiu Yue, 山本晋太郎
- 学会等名
  Vision Engineering Workshop (ViEW)
- 招待講演
[図書] コンピュータビジョン最前線　Winter 2021 (品川分担：ニュウモンVision & Language (p.78~128))2021
- 著者名/発表者名
  井尻善久、牛久祥孝、片岡裕雄、藤吉弘亘編、品川政太朗(分担執筆者)
- 総ページ数
  130
- 出版者
  共立出版
- ISBN
  978-4-320-12542-1

2021 年度 実施状況報告書

自然言語に紐づいて構造化された表現に基づく画像生成基盤の確立

研究代表者

品川 政太朗 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Vision and Languageと分野を取り巻く深層学習手法の紹介2021

著者名/発表者名

学会等名

[学会発表] Transformerの変遷と発展2021

著者名/発表者名

学会等名

[図書] コンピュータビジョン最前線 Winter 2021 (品川分担：ニュウモンVision & Language (p.78~128))2021

著者名/発表者名

総ページ数

出版者

ISBN

2021 年度実施状況報告書

品川政太朗奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70897454)

[図書] コンピュータビジョン最前線　Winter 2021 (品川分担：ニュウモンVision & Language (p.78~128))2021