研究課題/領域番号 |
24K15012
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 横浜市立大学 |
研究代表者 |
越仲 孝文 横浜市立大学, データサイエンス学部, 教授 (60895928)
|
研究期間 (年度) |
2024-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2026年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2025年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2024年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
|
キーワード | 深層学習 / ニューラルネットワーク / 画像認識 / 自然言語処理 / 音響シーン認識 |
研究開始時の研究の概要 |
大規模言語モデルや画像生成モデルといったブラックボックス型の生成AIが人々に期待と不安を与えている.そこで本研究では,生成AIの中では比較的注目されていない画像キャプショニング,すなわち画像説明文生成を取り上げる.音声に含まれる言語情報(発話内容)をテキスト化する音声認識からのアナロジーで,画像説明文生成モデルが画像の何を言語情報として抽出しているのか,逆に何を抽出していないのかを,画像認識モデルとの比較や説明可能AIの手法によって明らかにする.本研究を通して画像説明文生成タスクにおける生成AIの挙動に関する有益な知見を得て,将来の生成AIの安心・安全な普及に貢献する.
|