マルチモーダル音声ドキュメント検索のための音声・言語・画像情報処理に関する研究

研究課題

研究課題/領域番号	23K11216
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	滋賀大学
研究代表者	南條浩輝滋賀大学, データサイエンス学系, 教授 (50388162)
研究分担者	市川治滋賀大学, データサイエンス学系, 教授 (00821612) 飯山将晃滋賀大学, データサイエンス学系, 教授 (70362415)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2025年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2024年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2023年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
キーワード	マルチモーダル情報処理 / 自然言語処理 / 画像処理 / 音声処理 / 音声ドキュメント
研究開始時の研究の概要	深層学習技術の進展に伴い，計算機が高精度に画像や映像と音声，言語（テキスト）の処理を行えるようになってきた．本申請課題は，映像・画像と音声とテキストとを高度に対応付ける基礎技術を研究した上で，それらを用いた音声動画の検索技術の実現を目的とする．音声を対象とした検索は音声ドキュメント検索とよばれ，本申請課題では，音声情報だけでなく動画の映像・画像情報も用いた検索手法の実現を目的とする．これまでに蓄積してきた音声ドキュメント処理技術，音声-テキスト，画像-テキストなどのモダリティ変換技術に関する技術や知見を発展・拡張・統合することで，マルチモーダル音声ドキュメント検索のための基盤形成を目指す．