研究課題
若手研究
本研究計画では、画像・音声・言語を統合的に理解し信頼性の高いテキストを生成可能なマルチモーダル言語生成モデルの構築に取り組む。特に学術・ビジネスシーンの講演や会議で用いられる、スライド・PDF資料などの文書画像や図表画像と音声情報を高度に理解し、人間の知的活動をサポートする人工知能(AI)の実現を目指す。本研究では、大規模言語生成モデルと画像・音声モデルを組み合わせて、複合的なマルチモーダル情報を言語指示に従って高度に理解・生成するマルチモーダル言語生成モデルを構築する。また、生成されたテキストの信頼性評価と、評価結果を用いた出力の改善を行うことで出力の信頼性を向上させる方法を検証する。