| 研究課題/領域番号 |
23K11216
|
| 研究種目 |
基盤研究(C)
|
| 配分区分 | 基金 |
| 応募区分 | 一般 |
| 審査区分 |
小区分61030:知能情報学関連
|
| 研究機関 | 滋賀大学 |
研究代表者 |
南條 浩輝 滋賀大学, データサイエンス学系, 教授 (50388162)
|
| 研究分担者 |
市川 治 滋賀大学, データサイエンス学系, 教授 (00821612)
飯山 将晃 滋賀大学, データサイエンス学系, 教授 (70362415)
|
| 研究期間 (年度) |
2023-04-01 – 2026-03-31
|
| 研究課題ステータス |
交付 (2024年度)
|
| 配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2025年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2024年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2023年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
|
| キーワード | マルチモーダル情報処理 / 自然言語処理 / 画像処理 / 音声処理 / 音声ドキュメント |
| 研究開始時の研究の概要 |
深層学習技術の進展に伴い,計算機が高精度に画像や映像と音声,言語(テキスト)の処理を行えるようになってきた.本申請課題は,映像・画像と音声とテキストとを高度に対応付ける基礎技術を研究した上で,それらを用いた音声動画の検索技術の実現を目的とする.音声を対象とした検索は音声ドキュメント検索とよばれ,本申請課題では,音声情報だけでなく動画の映像・画像情報も用いた検索手法の実現を目的とする.これまでに蓄積してきた音声ドキュメント処理技術,音声-テキスト,画像-テキストなどのモダリティ変換技術に関する技術や知見を発展・拡張・統合することで,マルチモーダル音声ドキュメント検索のための基盤形成を目指す.
|
| 研究実績の概要 |
音声を対象とした検索を音声ドキュメント検索という.本申請課題では,音声情報だけでなく動画の映像・画像情報も用いたマルチモーダル音声ドキュメント検索の研究を推進している.映像・画像と音声とテキストとを高度に対応付ける基盤技術,およびそれらを用いた音声動画の検索技術の基盤形成を目指して研究を行っている.2024年度は,具体的には以下を推進した. - マルチモーダル音声ドキュメント検索のためのデータセットの整備: 授業や講義の動画からなるデータセットの構築を引き続き推進した.既存のオンライン授業動画の活用の検討と新規の講義データ収集を実施した.マルチモーダル研究のデータセット構築であり,意義深い. - 音声認識および映像・画像からの説明文生成: 検索のための索引語(ハッシュタグのようなもの)を音声から付与するための音声認識と,映像・画像から付与するための画像からの説明文生成に取り組んだ.既存の音声認識技術や画像説明文生成技術,文字読み取り技術(OCR)を検討し,必要な課題の明確化に取り組んだ.2024年度は特に,図や表の種類ごとの読み取りの難しさの調査を進めた.さらに,画像中の文字の読み取りとそこからの読解(説明文生成)を実施した.音声認識と文字読み取りの誤りの訂正において大規模言語モデルの利用および相互に参照する訂正手法の検証を進めた.映像からの説明文生成において複数のモデルが対話的にやり取りを行う方法を推進した.現状の技術の適用可能性とその課題の明確化に取り組めており,意義深い. - 情報収集: 研究課題に関連する研究等の調査を推進した.
|
| 現在までの達成度 |
現在までの達成度
2: おおむね順調に進展している
理由
マルチモーダル音声ドキュメント検索のための動画データの収集および映像・画像と音声とテキストとを高度に対応付ける基盤技術について研究を推進できている.
|
| 今後の研究の推進方策 |
- 動画の収集とデータセット構築 - 図・表からの説明文生成,複数モデルの協調による説明文生成の推進 - 音声認識の精度向上を推進 - 音声認識誤り,文字認識および説明文生成の誤りの検出と訂正を推進 - 多様な説明文の生成
|