• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

超高齢者のための認識誤り原因に対処可能なEnd-to-End音声認識手法の開発

研究課題

研究課題/領域番号 22K12084
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分61010:知覚情報処理関連
研究機関中部大学

研究代表者

山本 一公  中部大学, 工学部, 教授 (40324230)

研究分担者 西崎 博光  山梨大学, 大学院総合研究部, 教授 (40362082)
研究期間 (年度) 2022-04-01 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード音声認識 / End-to-End音声認識 / 特徴抽出 / 出力ラベル / 超高齢者 / 話者適応 / 事前学習モデル / End-to-End / 認識誤り / 説明可能化
研究開始時の研究の概要

音声認識技術が広く一般に普及してきたが、超高齢者に対しては認識精度が非常に悪く、精度改善が課題となっている。
最近の高精度音声認識技術は、入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが、少量データでの学修が困難、NNの内部がブラックボックスで認識誤りの原因が推定できないといった問題がある。
本研究では、E2E音声認識に従来の音声認識研究の知見を取り込むことで、音声特徴量の可視化や認識誤り傾向の可視化を実現し、認識困難である超高齢者音声の認識誤りに対処しやすいE2E音声認識技術を構築する。

研究実績の概要

音声認識技術が広く一般に普及してきたが,見守りロボットの対象となっている超高齢者に対しては認識精度が非常に悪く,精度改善が課題となっている。最近の高精度音声認識技術は,入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが,E2E音声認識で用いられるNNは非常に巨大で,大量の学習用音声データが必要となる。しかし,大量の超高齢者音声を収集することは非常に困難であり,従来法のように少量データから推定した超高齢者音声の特徴を直接モデルに反映できる手法が望まれるが,E2E音声認識手法はそのような変更が容易でない。そこで,E2E音声認識におけるNNの入力層付近(特徴抽出)と出力層付近(出力ラベル)を分けることで,従来の音声認識研究の知見を包含したE2E音声認識技術を開発することが本研究の目的である。
2023年度の研究では,2022年度に引き続いて,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。
山本は超高齢者の少量の学習データにより安定的に話者適応化を行うために,これまで研究で用いてきたガンマトーンフィルタバンクを新たな深層学習ツールキットで実装することを試みた。また,音声入力層の説明力を向上させるために,非線形周波数FFTによる音声特徴抽出に取り組んだ。
西崎は,日本語wav2vec 2.0をベースに音素(単位)モデルを訓練する際に,異なる音素同士をより明確に識別するための距離学習を導入する方法についての研究をさらに進めた。複数言語音声に対する認識で,高い音素識別性能を持つモデルが訓練できることが分かった。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

2023年度は,2022年度に引き続き,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。基本的には,それぞれが個別に研究を進める形を取っているが,山本・西崎が共に所属する研究グループミーティングで研究について相談する機会があり,連携は行えている。
山本の研究では,これまでに研究・開発を行ってきた,ガンマトーンフィルタバンクを用いたニューラルネットワークによる自動特徴抽出手法の,新たな深層学習ツールキット上での実装を試みた。これは,従来利用していたツールキットがメンテナンスされなくなっており今後の研究に安定性を欠くことと,安定した話者適応手法を実装する際により実装し易い環境を構築するためである。また,音声入力層の説明力を向上させるために,非線形周波数FFTによる音声特徴抽出に取り組んだ。現在,NNへの入力音声特徴量として用いられるメルフィルタバンク特徴(メルスペクトログラム)はその次元数を増す傾向にあるが,低周波数域の周波数分解能が低いために,次元数を増す恩恵を十分に得られていないと考えられることを解決するための手法である。両者とも進捗を得られているが,一方で,当初研究計画として考えていた注意機構の実装が遅れているため,2024年度はこの点に注力したい。
西崎の研究では,近年,粒度(単語・文字・音素など)の異なる深層学習モデルを組み合わせることで音声認識精度が改善できることが報告されていることから,異なる音素同士をより明確に識別できるモデルの開発を行ってきており,2023年度はこれまでの研究をさらに発展させる形で研究を行った。研究成果は国際会議で発表されており,順調に進展していると言える。今後はこのモデルやモデル学習方法を単言語の音声認識性能改善に適用することを検討している。

今後の研究の推進方策

2024年度も引き続いて,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行う。
山本の研究では,非線形周波数FFTを用いた特徴量の抽出方法に対してのさらなる検討と,特徴量に対する注意機構の実装について進めていく予定である。
西崎の研究では,開発した音素識別モデルを,日本語の高齢者音声にも適用することで,高齢者音声認識の精度改善が得られるかどうかを検証する予定である。
また,研究最終年度であるため,両者の研究成果を統合して音声認識を行い,超高齢者音声認識における精度向上を図りたい。

報告書

(2件)
  • 2023 実施状況報告書
  • 2022 実施状況報告書
  • 研究成果

    (3件)

すべて 2023

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (1件)

  • [雑誌論文] A Study of Speech Recognition, Speech Translation, and Speech Summarization of TED English Lectures2023

    • 著者名/発表者名
      Yamamoto Kazumasa、Banno Haruhiko、Sakurai Haruki、Adachi Toichiro、Nakagawa Seiichi
    • 雑誌名

      Proceedings of the 2023 IEEE 12th Global Conference on Consumer Electronics (GCCE 2023)

      巻: - ページ: 451-452

    • DOI

      10.1109/gcce59613.2023.10315471

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [雑誌論文] Metric Learning Approach for End-to-End Multilingual Automatic Speech Recognition Model2023

    • 著者名/発表者名
      Dobashi Akihiro、Leow Chee Siang、Nishizaki Hiromitsu
    • 雑誌名

      Proceedings of the 2023 IEEE 12th Global Conference on Consumer Electronics (GCCE 2023)

      巻: - ページ: 845-849

    • DOI

      10.1109/gcce59613.2023.10315608

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [学会発表] TED英語講演の音声認識・音声翻訳・音声要約の検討2023

    • 著者名/発表者名
      坂野晴彦, 桜井陽生, 足立十一郎, 山本一公, 中川聖一
    • 学会等名
      言語処理学会 第29回年次大会
    • 関連する報告書
      2022 実施状況報告書

URL: 

公開日: 2022-04-19   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi