Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors

Research Project

Project/Area Number	22K12084
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	Chubu University
Principal Investigator	山本一公中部大学, 工学部, 教授 (40324230)
Co-Investigator(Kenkyū-buntansha)	西崎博光山梨大学, 大学院総合研究部, 教授 (40362082)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Keywords	音声認識 / End-to-End音声認識 / 特徴抽出 / 出力ラベル / 超高齢者 / 話者適応 / 事前学習モデル / End-to-End / 認識誤り / 説明可能化
Outline of Research at the Start	音声認識技術が広く一般に普及してきたが、超高齢者に対しては認識精度が非常に悪く、精度改善が課題となっている。最近の高精度音声認識技術は、入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが、少量データでの学修が困難、NNの内部がブラックボックスで認識誤りの原因が推定できないといった問題がある。本研究では、E2E音声認識に従来の音声認識研究の知見を取り込むことで、音声特徴量の可視化や認識誤り傾向の可視化を実現し、認識困難である超高齢者音声の認識誤りに対処しやすいE2E音声認識技術を構築する。
Outline of Annual Research Achievements	音声認識技術が広く一般に普及してきたが，見守りロボットの対象となっている超高齢者に対しては認識精度が非常に悪く，精度改善が課題となっている。最近の高精度音声認識技術は，入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが，E2E音声認識で用いられるNNは非常に巨大で，大量の学習用音声データが必要となる。しかし，大量の超高齢者音声を収集することは非常に困難であり，従来法のように少量データから推定した超高齢者音声の特徴を直接モデルに反映できる手法が望まれるが，E2E音声認識手法はそのような変更が容易でない。そこで，E2E音声認識におけるNNの入力層付近（特徴抽出）と出力層付近（出力ラベル）を分けることで，従来の音声認識研究の知見を包含したE2E音声認識技術を開発することが本研究の目的である。 2023年度の研究では，2022年度に引き続いて，研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を，研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。山本は超高齢者の少量の学習データにより安定的に話者適応化を行うために，これまで研究で用いてきたガンマトーンフィルタバンクを新たな深層学習ツールキットで実装することを試みた。また，音声入力層の説明力を向上させるために，非線形周波数FFTによる音声特徴抽出に取り組んだ。西崎は，日本語wav2vec 2.0をベースに音素（単位）モデルを訓練する際に，異なる音素同士をより明確に識別するための距離学習を導入する方法についての研究をさらに進めた。複数言語音声に対する認識で，高い音素識別性能を持つモデルが訓練できることが分かった。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 2023年度は，2022年度に引き続き，研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を，研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。基本的には，それぞれが個別に研究を進める形を取っているが，山本・西崎が共に所属する研究グループミーティングで研究について相談する機会があり，連携は行えている。山本の研究では，これまでに研究・開発を行ってきた，ガンマトーンフィルタバンクを用いたニューラルネットワークによる自動特徴抽出手法の，新たな深層学習ツールキット上での実装を試みた。これは，従来利用していたツールキットがメンテナンスされなくなっており今後の研究に安定性を欠くことと，安定した話者適応手法を実装する際により実装し易い環境を構築するためである。また，音声入力層の説明力を向上させるために，非線形周波数FFTによる音声特徴抽出に取り組んだ。現在，NNへの入力音声特徴量として用いられるメルフィルタバンク特徴（メルスペクトログラム）はその次元数を増す傾向にあるが，低周波数域の周波数分解能が低いために，次元数を増す恩恵を十分に得られていないと考えられることを解決するための手法である。両者とも進捗を得られているが，一方で，当初研究計画として考えていた注意機構の実装が遅れているため，2024年度はこの点に注力したい。西崎の研究では，近年，粒度（単語・文字・音素など）の異なる深層学習モデルを組み合わせることで音声認識精度が改善できることが報告されていることから，異なる音素同士をより明確に識別できるモデルの開発を行ってきており，2023年度はこれまでの研究をさらに発展させる形で研究を行った。研究成果は国際会議で発表されており，順調に進展していると言える。今後はこのモデルやモデル学習方法を単言語の音声認識性能改善に適用することを検討している。
Strategy for Future Research Activity	2024年度も引き続いて，研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を，研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行う。山本の研究では，非線形周波数FFTを用いた特徴量の抽出方法に対してのさらなる検討と，特徴量に対する注意機構の実装について進めていく予定である。西崎の研究では，開発した音素識別モデルを，日本語の高齢者音声にも適用することで，高齢者音声認識の精度改善が得られるかどうかを検証する予定である。また，研究最終年度であるため，両者の研究成果を統合して音声認識を行い，超高齢者音声認識における精度向上を図りたい。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(3 results)

All 2023

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (1 results)

[Journal Article] A Study of Speech Recognition, Speech Translation, and Speech Summarization of TED English Lectures2023
- Author(s)
  Yamamoto Kazumasa、Banno Haruhiko、Sakurai Haruki、Adachi Toichiro、Nakagawa Seiichi
- Journal Title
  
  Proceedings of the 2023 IEEE 12th Global Conference on Consumer Electronics (GCCE 2023)
  
  Volume: - Pages: 451-452
- DOI
  10.1109/gcce59613.2023.10315471
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Journal Article] Metric Learning Approach for End-to-End Multilingual Automatic Speech Recognition Model2023
- Author(s)
  Dobashi Akihiro、Leow Chee Siang、Nishizaki Hiromitsu
- Journal Title
  
  Proceedings of the 2023 IEEE 12th Global Conference on Consumer Electronics (GCCE 2023)
  
  Volume: - Pages: 845-849
- DOI
  10.1109/gcce59613.2023.10315608
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Presentation] TED英語講演の音声認識・音声翻訳・音声要約の検討2023
- Author(s)
  坂野晴彦, 桜井陽生, 足立十一郎, 山本一公, 中川聖一
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Research-status Report

Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors

Principal Investigator

山本 一公 中部大学, 工学部, 教授 (40324230)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] A Study of Speech Recognition, Speech Translation, and Speech Summarization of TED English Lectures2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Metric Learning Approach for End-to-End Multilingual Automatic Speech Recognition Model2023

Author(s)

Journal Title

DOI

Related Report

[Presentation] TED英語講演の音声認識・音声翻訳・音声要約の検討2023

Author(s)

Organizer

Related Report

山本一公中部大学, 工学部, 教授 (40324230)