• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2023 年度 実施状況報告書

マルチモーダル音声ドキュメント検索のための音声・言語・画像情報処理に関する研究

研究課題

研究課題/領域番号 23K11216
研究機関滋賀大学

研究代表者

南條 浩輝  滋賀大学, データサイエンス学系, 教授 (50388162)

研究分担者 市川 治  滋賀大学, データサイエンス学系, 教授 (00821612)
飯山 将晃  滋賀大学, データサイエンス学系, 教授 (70362415)
研究期間 (年度) 2023-04-01 – 2026-03-31
キーワードマルチモーダル情報処理 / 自然言語処理 / 画像処理 / 音声処理 / 音声ドキュメント
研究実績の概要

音声を対象とした検索を音声ドキュメント検索という.本申請課題では,音声情報だけでなく動画の映像・画像情報も用いたマルチモーダル音声ドキュメント検索の研究を推進している.映像・画像と音声とテキストとを高度に対応付ける基盤技術,およびそれらを用いた音声動画の検索技術の基盤形成を目指して研究を行っている.2023年度は,具体的には以下を推進した.
- マルチモーダル音声ドキュメント検索のためのデータセットの整備: 授業や講義の動画からなるデータセットの構築を推進した.既存のオンライン授業動画の活用の検討と新規の講義データ収集を実施した.マルチモーダル研究のデータセット構築であり,意義深い.
- 音声認識および映像・画像からの説明文生成: 検索のための索引語(ハッシュタグのようなもの)を音声から付与するための音声認識と,映像・画像から付与するための画像からの説明文生成に取り組んだ.既存の音声認識技術や画像説明文生成技術,文字読み取り技術(OCR)を検討し,必要な課題の明確化に取り組んだ.図や表からの説明文生成に課題が大きいことを確認した.画像中の文字の読み取りとそこからの読解(説明文生成)の問題点を確認した.音声認識と文字認識それぞれに誤りが含まれており,それらの訂正において大規模言語モデルが有望そうであること,さらに訂正において音声認識結果と文字認識結果を相互に参照することが有望そうであること,を確認した.映像からの説明文生成において複数のモデルが対話的にやり取りを行う方法を推進した.現状の技術の適用可能性とその課題の明確化に取り組めており,意義深い.
- 情報収集: 研究課題に関連する研究等の調査を推進した.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

マルチモーダル音声ドキュメント検索のための技術,具体的には,動画データセットの構築および映像・画像と音声とテキストとを高度に対応付ける基盤技術について研究を推進できている.

今後の研究の推進方策

- 動画の収集とデータセット構築
- 図・表からの説明文生成,複数モデルの協調による説明文生成の推進
- 音声認識誤り,文字認識および説明文生成の誤りの検出と訂正を推進
- 多様な説明文の生成

次年度使用額が生じた理由

既存の計算機資源を活用しつつ初期実験を進められたため。
成果報告を2024年度以降に行うため。

必要な高速計算機の購入、大規模言語モデル・マルチモーダルモデル等の利用、学会への参加・成果報告に利用する計画である。

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi