Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
Project/Area Number |
22K12084
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Chubu University |
Principal Investigator |
山本 一公 中部大学, 工学部, 教授 (40324230)
|
Co-Investigator(Kenkyū-buntansha) |
西崎 博光 山梨大学, 大学院総合研究部, 教授 (40362082)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 音声認識 / End-to-End音声認識 / 特徴抽出 / 出力ラベル / 超高齢者 / 話者適応 / 事前学習モデル / End-to-End / 認識誤り / 説明可能化 |
Outline of Research at the Start |
音声認識技術が広く一般に普及してきたが、超高齢者に対しては認識精度が非常に悪く、精度改善が課題となっている。 最近の高精度音声認識技術は、入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが、少量データでの学修が困難、NNの内部がブラックボックスで認識誤りの原因が推定できないといった問題がある。 本研究では、E2E音声認識に従来の音声認識研究の知見を取り込むことで、音声特徴量の可視化や認識誤り傾向の可視化を実現し、認識困難である超高齢者音声の認識誤りに対処しやすいE2E音声認識技術を構築する。
|
Outline of Annual Research Achievements |
音声認識技術が広く一般に普及してきたが,見守りロボットの対象となっている超高齢者に対しては認識精度が非常に悪く,精度改善が課題となっている。最近の高精度音声認識技術は,入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが,E2E音声認識で用いられるNNは非常に巨大で,大量の学習用音声データが必要となる。しかし,大量の超高齢者音声を収集することは非常に困難であり,従来法のように少量データから推定した超高齢者音声の特徴を直接モデルに反映できる手法が望まれるが,E2E音声認識手法はそのような変更が容易でない。そこで,E2E音声認識におけるNNの入力層付近(特徴抽出)と出力層付近(出力ラベル)を分けることで,従来の音声認識研究の知見を包含したE2E音声認識技術を開発することが本研究の目的である。 2023年度の研究では,2022年度に引き続いて,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。 山本は超高齢者の少量の学習データにより安定的に話者適応化を行うために,これまで研究で用いてきたガンマトーンフィルタバンクを新たな深層学習ツールキットで実装することを試みた。また,音声入力層の説明力を向上させるために,非線形周波数FFTによる音声特徴抽出に取り組んだ。 西崎は,日本語wav2vec 2.0をベースに音素(単位)モデルを訓練する際に,異なる音素同士をより明確に識別するための距離学習を導入する方法についての研究をさらに進めた。複数言語音声に対する認識で,高い音素識別性能を持つモデルが訓練できることが分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2023年度は,2022年度に引き続き,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。基本的には,それぞれが個別に研究を進める形を取っているが,山本・西崎が共に所属する研究グループミーティングで研究について相談する機会があり,連携は行えている。 山本の研究では,これまでに研究・開発を行ってきた,ガンマトーンフィルタバンクを用いたニューラルネットワークによる自動特徴抽出手法の,新たな深層学習ツールキット上での実装を試みた。これは,従来利用していたツールキットがメンテナンスされなくなっており今後の研究に安定性を欠くことと,安定した話者適応手法を実装する際により実装し易い環境を構築するためである。また,音声入力層の説明力を向上させるために,非線形周波数FFTによる音声特徴抽出に取り組んだ。現在,NNへの入力音声特徴量として用いられるメルフィルタバンク特徴(メルスペクトログラム)はその次元数を増す傾向にあるが,低周波数域の周波数分解能が低いために,次元数を増す恩恵を十分に得られていないと考えられることを解決するための手法である。両者とも進捗を得られているが,一方で,当初研究計画として考えていた注意機構の実装が遅れているため,2024年度はこの点に注力したい。 西崎の研究では,近年,粒度(単語・文字・音素など)の異なる深層学習モデルを組み合わせることで音声認識精度が改善できることが報告されていることから,異なる音素同士をより明確に識別できるモデルの開発を行ってきており,2023年度はこれまでの研究をさらに発展させる形で研究を行った。研究成果は国際会議で発表されており,順調に進展していると言える。今後はこのモデルやモデル学習方法を単言語の音声認識性能改善に適用することを検討している。
|
Strategy for Future Research Activity |
2024年度も引き続いて,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行う。 山本の研究では,非線形周波数FFTを用いた特徴量の抽出方法に対してのさらなる検討と,特徴量に対する注意機構の実装について進めていく予定である。 西崎の研究では,開発した音素識別モデルを,日本語の高齢者音声にも適用することで,高齢者音声認識の精度改善が得られるかどうかを検証する予定である。 また,研究最終年度であるため,両者の研究成果を統合して音声認識を行い,超高齢者音声認識における精度向上を図りたい。
|
Report
(2 results)
Research Products
(3 results)