本研究では,マルチモーダル大規模言語モデルの応用研究を推進する.静止画や動画像を対象とするマルチモーダル大規模言語モデルは,視覚障害者支援において有望な解決策の一つと位置付けられる.一方,既存手法においては,複数枚の画像を入力した際に計算量が肥大化する問題や,画像に存在しない内容を誤って認識・記述するハルシネーションの問題が指摘されている.そこで,本研究では,ハルシネーションを判別可能な自動評価尺度を構築するとともに,グラフ構造に基づいてハルシネーションが低減されたマルチモーダル大規模言語モデルの開発を目指す.
|