2023 Fiscal Year Research-status Report

Studies of speech, image and natural language processing for multimodal spoken document retrieval

Research Project

Project/Area Number	23K11216
Research Institution	Shiga University
Principal Investigator	南條浩輝滋賀大学, データサイエンス学系, 教授 (50388162)
Co-Investigator(Kenkyū-buntansha)	市川治滋賀大学, データサイエンス学系, 教授 (00821612) 飯山将晃滋賀大学, データサイエンス学系, 教授 (70362415)
Project Period (FY)	2023-04-01 – 2026-03-31
Keywords	マルチモーダル情報処理 / 自然言語処理 / 画像処理 / 音声処理 / 音声ドキュメント
Outline of Annual Research Achievements	音声を対象とした検索を音声ドキュメント検索という．本申請課題では，音声情報だけでなく動画の映像・画像情報も用いたマルチモーダル音声ドキュメント検索の研究を推進している．映像・画像と音声とテキストとを高度に対応付ける基盤技術，およびそれらを用いた音声動画の検索技術の基盤形成を目指して研究を行っている．2023年度は，具体的には以下を推進した． - マルチモーダル音声ドキュメント検索のためのデータセットの整備: 授業や講義の動画からなるデータセットの構築を推進した．既存のオンライン授業動画の活用の検討と新規の講義データ収集を実施した．マルチモーダル研究のデータセット構築であり，意義深い． - 音声認識および映像・画像からの説明文生成: 検索のための索引語（ハッシュタグのようなもの）を音声から付与するための音声認識と，映像・画像から付与するための画像からの説明文生成に取り組んだ．既存の音声認識技術や画像説明文生成技術，文字読み取り技術（OCR）を検討し，必要な課題の明確化に取り組んだ．図や表からの説明文生成に課題が大きいことを確認した．画像中の文字の読み取りとそこからの読解（説明文生成）の問題点を確認した．音声認識と文字認識それぞれに誤りが含まれており，それらの訂正において大規模言語モデルが有望そうであること，さらに訂正において音声認識結果と文字認識結果を相互に参照することが有望そうであること，を確認した．映像からの説明文生成において複数のモデルが対話的にやり取りを行う方法を推進した．現状の技術の適用可能性とその課題の明確化に取り組めており，意義深い． - 情報収集: 研究課題に関連する研究等の調査を推進した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason マルチモーダル音声ドキュメント検索のための技術，具体的には，動画データセットの構築および映像・画像と音声とテキストとを高度に対応付ける基盤技術について研究を推進できている．
Strategy for Future Research Activity	- 動画の収集とデータセット構築 - 図・表からの説明文生成，複数モデルの協調による説明文生成の推進 - 音声認識誤り，文字認識および説明文生成の誤りの検出と訂正を推進 - 多様な説明文の生成
Causes of Carryover	既存の計算機資源を活用しつつ初期実験を進められたため。成果報告を2024年度以降に行うため。必要な高速計算機の購入、大規模言語モデル・マルチモーダルモデル等の利用、学会への参加・成果報告に利用する計画である。