Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
Project/Area Number |
22K12084
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Chubu University |
Principal Investigator |
山本 一公 中部大学, 工学部, 教授 (40324230)
|
Co-Investigator(Kenkyū-buntansha) |
西崎 博光 山梨大学, 大学院総合研究部, 教授 (40362082)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 音声認識 / End-to-End音声認識 / 特徴抽出 / 出力ラベル / 超高齢者 / 話者適応 / 事前学習モデル / End-to-End / 認識誤り / 説明可能化 |
Outline of Research at the Start |
音声認識技術が広く一般に普及してきたが、超高齢者に対しては認識精度が非常に悪く、精度改善が課題となっている。 最近の高精度音声認識技術は、入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが、少量データでの学修が困難、NNの内部がブラックボックスで認識誤りの原因が推定できないといった問題がある。 本研究では、E2E音声認識に従来の音声認識研究の知見を取り込むことで、音声特徴量の可視化や認識誤り傾向の可視化を実現し、認識困難である超高齢者音声の認識誤りに対処しやすいE2E音声認識技術を構築する。
|
Outline of Annual Research Achievements |
音声認識技術が広く一般に普及してきたが,見守りロボットの対象となっている超高齢者に対しては認識精度が非常に悪く,精度改善が課題となっている。最近の高精度音声認識技術は,入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが,E2E音声認識で用いられるNNは非常に巨大で,大量の学習用音声データが必要となる。しかし,大量の超高齢者音声を収集することは非常に困難であり,従来法のように少量データから推定した超高齢者音声の特徴を直接モデルに反映できる手法が望まれるが,E2E音声認識手法はそのような変更が容易でない。そこで,E2E音声認識におけるNNの入力層付近(特徴抽出)と出力層付近(出力ラベル)を分けることで,従来の音声認識研究の知見を包含したE2E音声認識技術を開発することが本研究の目的である。 2022年度の研究では,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。 山本は超高齢者の少量の学習データにより安定的に話者適応化することで,超高齢者音声認識性能を向上させる研究を行った。これまでは入力層であるガンマトーンフィルタバンクのパラメータだけで話者適応化を行っていたが,入力層だけでなく,周辺のパラメータを同時に話者適応化することで,学習データが少量の場合でも安定的に話者適応化が行えるようになった。 西崎は,日本語wav2vec 2.0をベースに音素(単位)モデルを訓練する際に,異なる音素同士をより識別するための距離学習を導入する方法を開発した。複数言語音声でモデルを検証したところ,高い音素識別性能を持つモデルが訓練できることが分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2023年度は,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。基本的には,それぞれが個別に研究を進める形を取っているが,山本・西崎が共に所属する研究グループミーティングで研究について相談する機会があり,連携は行えている。 山本の研究では,これまでに研究・開発を行ってきた,ガンマトーンフィルタバンクを用いたニューラルネットワークによる自動特徴抽出において,話者適応化の性能が安定しなかった問題について取り組んだ。これまでは,入力層であるガンマトーンフィルタバンクのパラメータだけで話者適応化を行っていたが,入力層だけでなく,周辺のパラメータやネットワーク全体を含めて話者適応化(ファインチューニング)することで,少量の学習データにもかかわらず,安定して話者適応化が行えるようになった。超高齢者個人から大量の音声を収集することは非常に難しいため,少量の音声で安定して話者適応化が行えることは,超高齢者向けのシステム実用化に向けて重要なことである。一方で,当初研究計画として考えていた注意機構の実装が遅れているため,2023年度はこの点に注力したい。 西崎の研究では,近年,粒度(単語・文字・音素など)の異なる深層学習モデルを組み合わせることで音声認識精度が改善できることが報告されていることから,音素に着目し,異なる音素同士をより識別できるモデルの開発を行っており,これまでの音声認識精度を凌駕する結果が得ている。今後はこのモデルやモデル学習方法を他の粒度のモデル訓練にも適用する段階であり,順調に進捗していると言える。
|
Strategy for Future Research Activity |
2023年度も引き続いて,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行う。 山本の研究では,特徴量の抽出方法に対してのさらなる検討と,特徴量に対する注意機構の実装について進めていく予定である。 西崎の研究では,開発した音素識別モデルを,日本語の高齢者音声にも適用することで,高齢者音声認識の精度改善が得られるかどうかを検証する予定である。
|
Report
(1 results)
Research Products
(1 results)