2022 Fiscal Year Research-status Report

Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors

Research Project

Project/Area Number	22K12084
Research Institution	Chubu University
Principal Investigator	山本一公中部大学, 工学部, 教授 (40324230)
Co-Investigator(Kenkyū-buntansha)	西崎博光山梨大学, 大学院総合研究部, 教授 (40362082)
Project Period (FY)	2022-04-01 – 2025-03-31
Keywords	音声認識 / End-to-End音声認識 / 特徴抽出 / 出力ラベル / 超高齢者 / 話者適応 / 事前学習モデル
Outline of Annual Research Achievements	音声認識技術が広く一般に普及してきたが，見守りロボットの対象となっている超高齢者に対しては認識精度が非常に悪く，精度改善が課題となっている。最近の高精度音声認識技術は，入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが，E2E音声認識で用いられるNNは非常に巨大で，大量の学習用音声データが必要となる。しかし，大量の超高齢者音声を収集することは非常に困難であり，従来法のように少量データから推定した超高齢者音声の特徴を直接モデルに反映できる手法が望まれるが，E2E音声認識手法はそのような変更が容易でない。そこで，E2E音声認識におけるNNの入力層付近（特徴抽出）と出力層付近（出力ラベル）を分けることで，従来の音声認識研究の知見を包含したE2E音声認識技術を開発することが本研究の目的である。 2022年度の研究では，研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を，研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。山本は超高齢者の少量の学習データにより安定的に話者適応化することで，超高齢者音声認識性能を向上させる研究を行った。これまでは入力層であるガンマトーンフィルタバンクのパラメータだけで話者適応化を行っていたが，入力層だけでなく，周辺のパラメータを同時に話者適応化することで，学習データが少量の場合でも安定的に話者適応化が行えるようになった。西崎は，日本語wav2vec 2.0をベースに音素（単位）モデルを訓練する際に，異なる音素同士をより識別するための距離学習を導入する方法を開発した。複数言語音声でモデルを検証したところ，高い音素識別性能を持つモデルが訓練できることが分かった。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 2023年度は，研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を，研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。基本的には，それぞれが個別に研究を進める形を取っているが，山本・西崎が共に所属する研究グループミーティングで研究について相談する機会があり，連携は行えている。山本の研究では，これまでに研究・開発を行ってきた，ガンマトーンフィルタバンクを用いたニューラルネットワークによる自動特徴抽出において，話者適応化の性能が安定しなかった問題について取り組んだ。これまでは，入力層であるガンマトーンフィルタバンクのパラメータだけで話者適応化を行っていたが，入力層だけでなく，周辺のパラメータやネットワーク全体を含めて話者適応化（ファインチューニング）することで，少量の学習データにもかかわらず，安定して話者適応化が行えるようになった。超高齢者個人から大量の音声を収集することは非常に難しいため，少量の音声で安定して話者適応化が行えることは，超高齢者向けのシステム実用化に向けて重要なことである。一方で，当初研究計画として考えていた注意機構の実装が遅れているため，2023年度はこの点に注力したい。西崎の研究では，近年，粒度（単語・文字・音素など）の異なる深層学習モデルを組み合わせることで音声認識精度が改善できることが報告されていることから，音素に着目し，異なる音素同士をより識別できるモデルの開発を行っており，これまでの音声認識精度を凌駕する結果が得ている。今後はこのモデルやモデル学習方法を他の粒度のモデル訓練にも適用する段階であり，順調に進捗していると言える。
Strategy for Future Research Activity	2023年度も引き続いて，研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を，研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行う。山本の研究では，特徴量の抽出方法に対してのさらなる検討と，特徴量に対する注意機構の実装について進めていく予定である。西崎の研究では，開発した音素識別モデルを，日本語の高齢者音声にも適用することで，高齢者音声認識の精度改善が得られるかどうかを検証する予定である。
Causes of Carryover	当初計画では，研究用計算資源としてGPGPUを購入する計画であったが，世界的にGPGPUが不足しており，本研究費を用いた調達計画がうまく行かなかった。研究そのものは，これまでに調達したGPGPUで行うことができているが，計算資源の不足は否めない状況であるため，2023年度に計算資源の強化を行うために，計算機本体の一部，または，GPGPUの調達を行う計画である。 2022年度はまだコロナ禍の影響があり，旅費をあまり使えていないことも次年度使用額が生じた理由である。2023年度は学会開催等がかなりの割合で平常に戻ると期待されるため，学会参加費用としても積極的に使用していく計画である。

Research Products
(1 results)

All Presentation (1 results)

[Presentation] TED英語講演の音声認識・音声翻訳・音声要約の検討2023
- Author(s)
  坂野晴彦, 桜井陽生, 足立十一郎, 山本一公, 中川聖一
- Organizer
  言語処理学会第29回年次大会