マルチモーダル音声ドキュメント検索のための音声・言語・画像情報処理に関する研究

研究課題

研究課題/領域番号	23K11216
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	滋賀大学
研究代表者	南條浩輝滋賀大学, データサイエンス学系, 教授 (50388162)
研究分担者	市川治滋賀大学, データサイエンス学系, 教授 (00821612) 飯山将晃滋賀大学, データサイエンス学系, 教授 (70362415)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2025年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2024年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2023年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
キーワード	マルチモーダル情報処理 / 自然言語処理 / 画像処理 / 音声処理 / 音声ドキュメント
研究開始時の研究の概要	深層学習技術の進展に伴い，計算機が高精度に画像や映像と音声，言語（テキスト）の処理を行えるようになってきた．本申請課題は，映像・画像と音声とテキストとを高度に対応付ける基礎技術を研究した上で，それらを用いた音声動画の検索技術の実現を目的とする．音声を対象とした検索は音声ドキュメント検索とよばれ，本申請課題では，音声情報だけでなく動画の映像・画像情報も用いた検索手法の実現を目的とする．これまでに蓄積してきた音声ドキュメント処理技術，音声-テキスト，画像-テキストなどのモダリティ変換技術に関する技術や知見を発展・拡張・統合することで，マルチモーダル音声ドキュメント検索のための基盤形成を目指す．
研究実績の概要	音声を対象とした検索を音声ドキュメント検索という．本申請課題では，音声情報だけでなく動画の映像・画像情報も用いたマルチモーダル音声ドキュメント検索の研究を推進している．映像・画像と音声とテキストとを高度に対応付ける基盤技術，およびそれらを用いた音声動画の検索技術の基盤形成を目指して研究を行っている．2023年度は，具体的には以下を推進した． - マルチモーダル音声ドキュメント検索のためのデータセットの整備: 授業や講義の動画からなるデータセットの構築を推進した．既存のオンライン授業動画の活用の検討と新規の講義データ収集を実施した．マルチモーダル研究のデータセット構築であり，意義深い． - 音声認識および映像・画像からの説明文生成: 検索のための索引語（ハッシュタグのようなもの）を音声から付与するための音声認識と，映像・画像から付与するための画像からの説明文生成に取り組んだ．既存の音声認識技術や画像説明文生成技術，文字読み取り技術（OCR）を検討し，必要な課題の明確化に取り組んだ．図や表からの説明文生成に課題が大きいことを確認した．画像中の文字の読み取りとそこからの読解（説明文生成）の問題点を確認した．音声認識と文字認識それぞれに誤りが含まれており，それらの訂正において大規模言語モデルが有望そうであること，さらに訂正において音声認識結果と文字認識結果を相互に参照することが有望そうであること，を確認した．映像からの説明文生成において複数のモデルが対話的にやり取りを行う方法を推進した．現状の技術の適用可能性とその課題の明確化に取り組めており，意義深い． - 情報収集: 研究課題に関連する研究等の調査を推進した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由マルチモーダル音声ドキュメント検索のための技術，具体的には，動画データセットの構築および映像・画像と音声とテキストとを高度に対応付ける基盤技術について研究を推進できている．
今後の研究の推進方策	- 動画の収集とデータセット構築 - 図・表からの説明文生成，複数モデルの協調による説明文生成の推進 - 音声認識誤り，文字認識および説明文生成の誤りの検出と訂正を推進 - 多様な説明文の生成

報告書

(1件)

2023 実施状況報告書