2021 年度研究成果報告書

深層学習を用いた音声認識を最適化する音響モデル単位の自動獲得に関する研究

研究課題

PDF

研究課題/領域番号	19K12027
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	中部大学
研究代表者	山本一公中部大学, 工学部, 教授 (40324230)
研究分担者	西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	音声認識 / 音響モデル / 深層学習 / モデル単位 / 音響クラスタリング / 多言語
研究成果の概要	本研究では、日本語音声認識の性能向上のために、音響モデル単位を最新の深層学習技術を用いて自動獲得することを目指した。研究は「（1）深層学習を用いたクラスタリングによるモデル単位自動獲得」と「(2)多言語単音モデル群による単音-音素マッピングの曖昧さ解消」に分かれている。(1)では、DNN-HMM音響モデルにおいて、従来の文脈依存音素クラスタリングでは得られない状態クラスタリングにより、認識精度を向上させることができた。(2)では、多言語同時音声認識において、言語別の音素モデル単位よりも、話者や言語の違いを吸収するような音響モデリングを行うことで、音声認識精度が改善することが分かった。
自由記述の分野	音声言語情報処理
研究成果の学術的意義や社会的意義	最近の深層学習技術の発展により、自動音声認識の性能は大きく向上し、音声AIアシスタントの入力インタフェースとして広く実用化されるに至った。しかしながら、英語音声認識と比べて日本語音声認識はやや性能が悪く、英語圏に比べて日本語の音声入力システムの活用頻度が低い理由のひとつとなっていると考えられる。本研究では、日本語音声認識システムの基本的な性能向上を目指すことが学術的な意義であり、ディジタルディバイドの影響を受けやすい高齢者に対しても高い音声認識精度を持つ音声入力システムを提供できるようになることが社会的な意義である。