• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実績報告書

実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク

研究課題

研究課題/領域番号 18K11431
研究機関静岡大学

研究代表者

甲斐 充彦  静岡大学, 工学部, 准教授 (60283496)

研究期間 (年度) 2018-04-01 – 2023-03-31
キーワード長時間収録 / 自動字幕 / 自動修正 / 音声検索語検出 / 読み推定 / End-to-end型音声認識 / リアルタイム
研究実績の概要

自動音声認識技術は講義や会議のような場面で自動字幕や書起こし、検索等の用途へ応用が望まれるが、特にそれらの用途では新出の用語への対応が継続的に必要であり、そのチューニングのためのデータ準備に大きなコストがかかる。本研究では、自動音声認識から自動字幕化までの実運用の想定で、少ない労力および遅延で字幕修正に対応できるよう、自動音声認識の出力テキストを修正する支援者が必要最小限の修正情報を教示し、そこから半自動的に字幕修正および音声認識モデルをチューニングする仕組みを持つ自動字幕支援システムの開発を進めた。具体的には、リアルタイムの自動字幕生成に適した音声認識システムを深層学習モデルで構築し、1)自動音声認識出力の半自動修正手法の開発、2)注目話者を想定した話者分離・音声区間検出手法の開発、3)ユーザの修正語入力による半自動修正機能をもつ自動字幕支援システムの実装、を行った。
自動音声認識出力の半自動修正手法の実現では、自動音声認識の出力テキスト中に含まれない語(修正語)だけを修正支援者がテキスト入力する想定で、音声から入力テキストの出現位置を検索する技術の高精度化を図った。具体的には、音声認識モデルに含まれない未知語が修正語になりやすいことから、音声の読み(かな列)を推論するEnd-to-end型音声認識モデルを用いた検索手法を提案した。修正語の出現位置の検索結果を用いて音声認識結果の曖昧さを表現したラティス情報から自動音声認識の出力テキストを自動修正する手法と組合せることで、低コストに修正が実現できることを実験的に実証した。その他、講義や会議の環境の自動音声認識の性能を低コストに改善するため、注目する話者や環境の特徴量を手がかりとした音声区間検出やドメイン適応手法を提案すると共に、リアルタイムで動作する字幕修正支援システムを実装し、それぞれ有効性を確認した。

  • 研究成果

    (3件)

すべて 2023 2022

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (2件)

  • [雑誌論文] Domain Adaptation with Augmented Data by Deep Neural Network Based Method Using Re-Recorded Speech for Automatic Speech Recognition in Real Environment2022

    • 著者名/発表者名
      Nahar Raufun、Miwa Shogo、Kai Atsuhiko
    • 雑誌名

      Sensors

      巻: 22 ページ: 9945

    • DOI

      10.3390/s22249945

    • 査読あり / オープンアクセス
  • [学会発表] Domain Adaptation for Improving End-to-end ASR Performance of Classroom Speech with Variable Recording Condition2023

    • 著者名/発表者名
      R. Nahar, R. Suzuki, A. Kai
    • 学会等名
      音声研究会
  • [学会発表] 自己教師有り学習モデルXLSRと日本語諸方言コーパスを利用した諸方言音声認識モデル2023

    • 著者名/発表者名
      三輪祥吾, 甲斐充彦
    • 学会等名
      音声研究会

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi