2021 年度実績報告書

深層学習を用いた音声認識を最適化する音響モデル単位の自動獲得に関する研究

研究課題

研究課題/領域番号	19K12027
研究機関	中部大学
研究代表者	山本一公中部大学, 工学部, 教授 (40324230)
研究分担者	西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	音声認識 / 音響モデル / 深層学習 / マルチタスク学習 / End-to-End / 多言語
研究実績の概要	本研究では、日本語音声認識の性能向上を目的として、音響モデル単位を最新の深層学習技術を用いて自動獲得することを目指していた。研究の途中で、より新しい音声認識技術であるEnd-to-End(E2E)音声認識フレームワークを用いることで、目指していたことが自然と実現できる可能性に気が付いたため、2021年度は研究方針の修正を行い、E2E音声認識での音声認識精度向上を目指した特徴抽出フレームワークによる高速話者適応やE2E多言語音声認識等を行った。研究代表者（山本）は、2021年度は、従来から行っていた頑健な音声認識のためのガンマトーンフィルタバンクによる自動的な特徴抽出手法を、音声認識が難しい超高齢者音声認識の少量音声による高速な話者適応手法として利用し、超高齢者音声認識の精度を改善する手法について研究を行った。この音声特徴抽出は、E2E音声認識においても音声特徴抽出部として利用が可能であり、且つ、話者適応手法としても同様に動作するため、今後行う予定の研究の基礎として、有効利用可能である。研究分担者（西崎）は、2021年度の研究において、E2Eの音声認識のフレームワークにおいて、言語および話者非依存の音声特徴抽出を行うことで音声認識の性能を向上させる手法を考案した。具体的には、音声認識器に加えて、言語認識器と話者認識器を組み合わせたマルチタスク学習法である。提案手法を多言語音声認識タスクで評価した結果、提案手法は各言語の音声認識モデルよりも高い精度を達成することができた。本研究は途中で軌道修正を行ったことで当初目的とは少し異なった研究となったが、これらの研究は今後引き続いて行う研究の基礎となるものであり、これらの研究成果に基づいて今後はより難しい超高齢者音声認識をターゲットとした研究を行っていく計画である。

研究成果

(4件)

すべて 2021

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件)

[雑誌論文] Improvement of Elderly Speech Recognition Using Gammatone Filterbank Adaptation2021
- 著者名/発表者名
  Kazumasa Yamamoto, Akinori Ishiki, Seiichi Nakagawa
- 雑誌名
  
  Proceedings of 2020 IEEE 10th Global Conference on Consumer Electronics (GCCE)
  
  巻: - ページ: 327-328
- DOI
  10.1109/GCCE53005.2021.9622086
- 査読あり
[雑誌論文] ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi2021
- 著者名/発表者名
  Wang Yu, Chee Siang Leow, Akio Kobayashi, Takehito Utsuro, Hiromitsu Nishizaki
- 雑誌名
  
  Proceedings of 2020 IEEE 10th Global Conference on Consumer Electronics (GCCE)
  
  巻: - ページ: 346-350
- DOI
  10.1109/GCCE53005.2021.9621992
- 査読あり
[雑誌論文] Language and Speaker-Independent Feature Transformation for End-to-End Multilingual Speech Recognition2021
- 著者名/発表者名
  Tomoaki Hayakawa, Chee Siang Leow, Akio Kobayashi, Takehito Utsuro, and Hiromitsu Nishizaki
- 雑誌名
  
  Proceedings of INTERSPEECH2021
  
  巻: - ページ: 2431-2435
- DOI
  10.21437/Interspeech.2021-390
- 査読あり
[学会発表] 超高齢者音声コーパスEARS における超高齢者の音響的特徴2021
- 著者名/発表者名
  福田芽衣子, 西村良太, 西崎博光, 入部百合絵, 山本一公, 北岡教英
- 学会等名
  日本音響学会2021年秋季研究発表会

2021 年度 実績報告書

深層学習を用いた音声認識を最適化する音響モデル単位の自動獲得に関する研究

研究代表者

山本 一公 中部大学, 工学部, 教授 (40324230)

研究成果

[雑誌論文] Improvement of Elderly Speech Recognition Using Gammatone Filterbank Adaptation2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Language and Speaker-Independent Feature Transformation for End-to-End Multilingual Speech Recognition2021

著者名/発表者名

雑誌名

DOI

[学会発表] 超高齢者音声コーパスEARS における超高齢者の音響的特徴2021

著者名/発表者名

学会等名

2021 年度実績報告書

山本一公中部大学, 工学部, 教授 (40324230)