• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

On Visualizing the Text Generation Process of Image Captioners

Research Project

Project/Area Number 24K15012
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61010:Perceptual information processing-related
Research InstitutionYokohama City University

Principal Investigator

越仲 孝文  横浜市立大学, データサイエンス学部, 教授 (60895928)

Project Period (FY) 2024-04-01 – 2027-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2026: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2025: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2024: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
Keywords深層学習 / ニューラルネットワーク / 画像認識 / 自然言語処理 / 音響シーン認識
Outline of Research at the Start

大規模言語モデルや画像生成モデルといったブラックボックス型の生成AIが人々に期待と不安を与えている.そこで本研究では,生成AIの中では比較的注目されていない画像キャプショニング,すなわち画像説明文生成を取り上げる.音声に含まれる言語情報(発話内容)をテキスト化する音声認識からのアナロジーで,画像説明文生成モデルが画像の何を言語情報として抽出しているのか,逆に何を抽出していないのかを,画像認識モデルとの比較や説明可能AIの手法によって明らかにする.本研究を通して画像説明文生成タスクにおける生成AIの挙動に関する有益な知見を得て,将来の生成AIの安心・安全な普及に貢献する.

URL: 

Published: 2024-04-05   Modified: 2024-06-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi