2021 Fiscal Year Final Research Report
Automatic acquisition of optimized acoustic model unit for automatic speech recognition using deep learning
Project/Area Number |
19K12027
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Chubu University |
Principal Investigator |
|
Co-Investigator(Kenkyū-buntansha) |
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声認識 / 音響モデル / 深層学習 / モデル単位 / 音響クラスタリング / 多言語 |
Outline of Final Research Achievements |
In this research, we aimed to acquire acoustic model units automatically using the latest deep learning technology in order to improve the performance of Japanese speech recognition. This research is divided into two sub-themes: "(1) automatic acquisition of model units by clustering using deep learning," and "(2) disambiguation of phone-phoneme mapping by using groups of multilingual phone models". In the sub-theme (1), in DNN-HMM acoustic model, recognition accuracy could be improved by state clustering, which cannot be obtained by conventional context-dependent phonetic clustering. In the sub-theme (2), it was found that in multilingual (code-switching) speech recognition, the speech recognition accuracy is improved by performing acoustic modeling that absorbs differences in speakers and languages rather than the phonetic model unit for each language.
|
Free Research Field |
音声言語情報処理
|
Academic Significance and Societal Importance of the Research Achievements |
最近の深層学習技術の発展により、自動音声認識の性能は大きく向上し、音声AIアシスタントの入力インタフェースとして広く実用化されるに至った。しかしながら、英語音声認識と比べて日本語音声認識はやや性能が悪く、英語圏に比べて日本語の音声入力システムの活用頻度が低い理由のひとつとなっていると考えられる。本研究では、日本語音声認識システムの基本的な性能向上を目指すことが学術的な意義であり、ディジタルディバイドの影響を受けやすい高齢者に対しても高い音声認識精度を持つ音声入力システムを提供できるようになることが社会的な意義である。
|