文書画像と音声を統合的に理解可能なマルチモーダル言語生成モデルの開発

研究課題

研究課題/領域番号	24K20829
研究種目	若手研究
配分区分	基金
審査区分	小区分61030:知能情報学関連
研究機関	東北大学
研究代表者	高橋いつみ (斉藤いつみ) 東北大学, 情報科学研究科, 准教授 (90984287)
研究期間 (年度)	2024-04-01 – 2027-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2026年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2025年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード	マルチモーダル
研究開始時の研究の概要	本研究計画では、画像・音声・言語を統合的に理解し信頼性の高いテキストを生成可能なマルチモーダル言語生成モデルの構築に取り組む。特に学術・ビジネスシーンの講演や会議で用いられる、スライド・PDF資料などの文書画像や図表画像と音声情報を高度に理解し、人間の知的活動をサポートする人工知能(AI)の実現を目指す。本研究では、大規模言語生成モデルと画像・音声モデルを組み合わせて、複合的なマルチモーダル情報を言語指示に従って高度に理解・生成するマルチモーダル言語生成モデルを構築する。また、生成されたテキストの信頼性評価と、評価結果を用いた出力の改善を行うことで出力の信頼性を向上させる方法を検証する。