Project/Area Number |
19K12027
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Chubu University |
Principal Investigator |
|
Co-Investigator(Kenkyū-buntansha) |
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2019: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 音声認識 / 音響モデル / 深層学習 / モデル単位 / 音響クラスタリング / 多言語 / マルチタスク学習 / End-to-End / 音素モデル / 単音モデル / クラスタリング |
Outline of Research at the Start |
深層学習の導入により自動音声認識技術は大きく発展し、実用化のステージに入ってきた。しかしながら、英語音声認識と比べて日本語音声認識性能が低いのが現状である。この原因のひとつとして、言語に適した音響モデル単位が使われていないことがあると考えられる。 そこで、本提案研究では、音響モデル単位を最新の深層学習技術を用いて自動獲得することによって日本語音声認識の性能を向上させることを目的とする。具体的には、従来の自動音響モデル単位獲得と深層学習の組み合わせによる高精度化と、多言語単音モデルの日本語音素への自動マッピングを基礎として、これらの組み合わせにより、より良い音響モデル単位の獲得を目指す。
|
Outline of Final Research Achievements |
In this research, we aimed to acquire acoustic model units automatically using the latest deep learning technology in order to improve the performance of Japanese speech recognition. This research is divided into two sub-themes: "(1) automatic acquisition of model units by clustering using deep learning," and "(2) disambiguation of phone-phoneme mapping by using groups of multilingual phone models". In the sub-theme (1), in DNN-HMM acoustic model, recognition accuracy could be improved by state clustering, which cannot be obtained by conventional context-dependent phonetic clustering. In the sub-theme (2), it was found that in multilingual (code-switching) speech recognition, the speech recognition accuracy is improved by performing acoustic modeling that absorbs differences in speakers and languages rather than the phonetic model unit for each language.
|
Academic Significance and Societal Importance of the Research Achievements |
最近の深層学習技術の発展により、自動音声認識の性能は大きく向上し、音声AIアシスタントの入力インタフェースとして広く実用化されるに至った。しかしながら、英語音声認識と比べて日本語音声認識はやや性能が悪く、英語圏に比べて日本語の音声入力システムの活用頻度が低い理由のひとつとなっていると考えられる。本研究では、日本語音声認識システムの基本的な性能向上を目指すことが学術的な意義であり、ディジタルディバイドの影響を受けやすい高齢者に対しても高い音声認識精度を持つ音声入力システムを提供できるようになることが社会的な意義である。
|