Studies of speech, image and natural language processing for multimodal spoken document retrieval

Research Project

Project/Area Number	23K11216
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Shiga University
Principal Investigator	南條浩輝滋賀大学, データサイエンス学系, 教授 (50388162)
Co-Investigator(Kenkyū-buntansha)	市川治滋賀大学, データサイエンス学系, 教授 (00821612) 飯山将晃滋賀大学, データサイエンス学系, 教授 (70362415)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2025: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2024: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000) Fiscal Year 2023: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Keywords	マルチモーダル情報処理 / 自然言語処理 / 画像処理 / 音声処理 / 音声ドキュメント
Outline of Research at the Start	深層学習技術の進展に伴い，計算機が高精度に画像や映像と音声，言語（テキスト）の処理を行えるようになってきた．本申請課題は，映像・画像と音声とテキストとを高度に対応付ける基礎技術を研究した上で，それらを用いた音声動画の検索技術の実現を目的とする．音声を対象とした検索は音声ドキュメント検索とよばれ，本申請課題では，音声情報だけでなく動画の映像・画像情報も用いた検索手法の実現を目的とする．これまでに蓄積してきた音声ドキュメント処理技術，音声-テキスト，画像-テキストなどのモダリティ変換技術に関する技術や知見を発展・拡張・統合することで，マルチモーダル音声ドキュメント検索のための基盤形成を目指す．
Outline of Annual Research Achievements	音声を対象とした検索を音声ドキュメント検索という．本申請課題では，音声情報だけでなく動画の映像・画像情報も用いたマルチモーダル音声ドキュメント検索の研究を推進している．映像・画像と音声とテキストとを高度に対応付ける基盤技術，およびそれらを用いた音声動画の検索技術の基盤形成を目指して研究を行っている．2023年度は，具体的には以下を推進した． - マルチモーダル音声ドキュメント検索のためのデータセットの整備: 授業や講義の動画からなるデータセットの構築を推進した．既存のオンライン授業動画の活用の検討と新規の講義データ収集を実施した．マルチモーダル研究のデータセット構築であり，意義深い． - 音声認識および映像・画像からの説明文生成: 検索のための索引語（ハッシュタグのようなもの）を音声から付与するための音声認識と，映像・画像から付与するための画像からの説明文生成に取り組んだ．既存の音声認識技術や画像説明文生成技術，文字読み取り技術（OCR）を検討し，必要な課題の明確化に取り組んだ．図や表からの説明文生成に課題が大きいことを確認した．画像中の文字の読み取りとそこからの読解（説明文生成）の問題点を確認した．音声認識と文字認識それぞれに誤りが含まれており，それらの訂正において大規模言語モデルが有望そうであること，さらに訂正において音声認識結果と文字認識結果を相互に参照することが有望そうであること，を確認した．映像からの説明文生成において複数のモデルが対話的にやり取りを行う方法を推進した．現状の技術の適用可能性とその課題の明確化に取り組めており，意義深い． - 情報収集: 研究課題に関連する研究等の調査を推進した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason マルチモーダル音声ドキュメント検索のための技術，具体的には，動画データセットの構築および映像・画像と音声とテキストとを高度に対応付ける基盤技術について研究を推進できている．
Strategy for Future Research Activity	- 動画の収集とデータセット構築 - 図・表からの説明文生成，複数モデルの協調による説明文生成の推進 - 音声認識誤り，文字認識および説明文生成の誤りの検出と訂正を推進 - 多様な説明文の生成

Report

(1 results)

2023 Research-status Report