深層学習を用いた音声認識を最適化する音響モデル単位の自動獲得に関する研究

研究課題

研究課題/領域番号	19K12027
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	中部大学
研究代表者	山本一公中部大学, 工学部, 教授 (40324230)
研究分担者	西崎博光山梨大学, 大学院総合研究部, 准教授 (40362082)
研究期間 (年度)	2019-04-01 – 2022-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2020年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2019年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
キーワード	音声認識 / 音響モデル / 深層学習 / モデル単位 / 音響クラスタリング / 多言語 / マルチタスク学習 / End-to-End / 音素モデル / 単音モデル / クラスタリング
研究開始時の研究の概要	深層学習の導入により自動音声認識技術は大きく発展し、実用化のステージに入ってきた。しかしながら、英語音声認識と比べて日本語音声認識性能が低いのが現状である。この原因のひとつとして、言語に適した音響モデル単位が使われていないことがあると考えられる。そこで、本提案研究では、音響モデル単位を最新の深層学習技術を用いて自動獲得することによって日本語音声認識の性能を向上させることを目的とする。具体的には、従来の自動音響モデル単位獲得と深層学習の組み合わせによる高精度化と、多言語単音モデルの日本語音素への自動マッピングを基礎として、これらの組み合わせにより、より良い音響モデル単位の獲得を目指す。
研究成果の概要	本研究では、日本語音声認識の性能向上のために、音響モデル単位を最新の深層学習技術を用いて自動獲得することを目指した。研究は「（1）深層学習を用いたクラスタリングによるモデル単位自動獲得」と「(2)多言語単音モデル群による単音-音素マッピングの曖昧さ解消」に分かれている。(1)では、DNN-HMM音響モデルにおいて、従来の文脈依存音素クラスタリングでは得られない状態クラスタリングにより、認識精度を向上させることができた。(2)では、多言語同時音声認識において、言語別の音素モデル単位よりも、話者や言語の違いを吸収するような音響モデリングを行うことで、音声認識精度が改善することが分かった。
研究成果の学術的意義や社会的意義	最近の深層学習技術の発展により、自動音声認識の性能は大きく向上し、音声AIアシスタントの入力インタフェースとして広く実用化されるに至った。しかしながら、英語音声認識と比べて日本語音声認識はやや性能が悪く、英語圏に比べて日本語の音声入力システムの活用頻度が低い理由のひとつとなっていると考えられる。本研究では、日本語音声認識システムの基本的な性能向上を目指すことが学術的な意義であり、ディジタルディバイドの影響を受けやすい高齢者に対しても高い音声認識精度を持つ音声入力システムを提供できるようになることが社会的な意義である。

報告書

(4件)

研究成果
(9件)

すべて 2021 2020 2019

すべて雑誌論文 (6件) (うち査読あり 6件、オープンアクセス 1件) 学会発表 (3件)

[雑誌論文] Improvement of Elderly Speech Recognition Using Gammatone Filterbank Adaptation2021
- 著者名/発表者名
  Kazumasa Yamamoto, Akinori Ishiki, Seiichi Nakagawa
- 雑誌名
  
  Proceedings of 2020 IEEE 10th Global Conference on Consumer Electronics (GCCE)
  
  巻: - ページ: 327-328
- DOI
  10.1109/gcce53005.2021.9622086
- 関連する報告書
  2021 実績報告書
- 査読あり
[雑誌論文] ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi2021
- 著者名/発表者名
  Wang Yu, Chee Siang Leow, Akio Kobayashi, Takehito Utsuro, Hiromitsu Nishizaki
- 雑誌名
  
  Proceedings of 2020 IEEE 10th Global Conference on Consumer Electronics (GCCE)
  
  巻: - ページ: 346-350
- DOI
  10.1109/gcce53005.2021.9621992
- 関連する報告書
  2021 実績報告書
- 査読あり
[雑誌論文] Language and Speaker-Independent Feature Transformation for End-to-End Multilingual Speech Recognition2021
- 著者名/発表者名
  Tomoaki Hayakawa, Chee Siang Leow, Akio Kobayashi, Takehito Utsuro, and Hiromitsu Nishizaki
- 雑誌名
  
  Proceedings of INTERSPEECH2021
  
  巻: - ページ: 2431-2435
- DOI
  10.21437/interspeech.2021-390
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Effectiveness of Fine Linear Frequency Spectral Feature for Acoustic Event Detection2020
- 著者名/発表者名
  Kazumasa Yamamoto, Ryo Yamamoto, Seiichi Nakagawa
- 雑誌名
  
  Proceedings of 2020 IEEE 9th Global Conference on Consumer Electronics (GCCE)
  
  巻: - ページ: 923-924
- DOI
  10.1109/gcce50665.2020.9291954
- 関連する報告書
  2020 実施状況報告書
- 査読あり
[雑誌論文] Audio Classification of Bit-Representation Waveform2019
- 著者名/発表者名
  Okawa Masaki, Saito Takuya, Sawada Naoki, Nishizaki Hiromitsu
- 雑誌名
  
  Proceedings of the 20th Annual Conference of the International Speech Communicationn Association (INTERSPEECH2019)
  
  巻: - ページ: 2553-2557
- DOI
  10.21437/interspeech.2019-1855
- 関連する報告書
  2019 実施状況報告書
- 査読あり
[雑誌論文] A New Corpus of Elderly Japanese Speech for Acoustic Modeling, and a Preliminary Investigation of Dialect-Dependent Speech Recognition2019
- 著者名/発表者名
  Meiko Fukuda, Ryota Nishimura, Hiromitsu Nishizaki, Yurie Iribe, Norihide Kitaoka
- 雑誌名
  
  Proceedings of the 22nd Conference of the Oriental COCOSDA (International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA 2019)
  
  巻: -
- 関連する報告書
  2019 実施状況報告書
- 査読あり
[学会発表] 超高齢者音声コーパスEARS における超高齢者の音響的特徴2021
- 著者名/発表者名
  福田芽衣子, 西村良太, 西崎博光, 入部百合絵, 山本一公, 北岡教英
- 学会等名
  日本音響学会2021年秋季研究発表会
- 関連する報告書
  2021 実績報告書
[学会発表] End-to-End複数言語音声認識モデルにおける様々なマルチタスク学習の検討2020
- 著者名/発表者名
  早川友瑛，西崎博光，山本一公，小林彰夫，宇津呂武仁
- 学会等名
  日本音響学会 2020年秋季研究発表会
- 関連する報告書
  2020 実施状況報告書
[学会発表] Development and Evaluation of Kaldi Extension Tools with Python2019
- 著者名/発表者名
  Yu Wang, Hiromitsu Nishizaki , Akio Kobayashi , Takehito Utsuro, Chee Siang Leow
- 学会等名
  情報処理学会，音声言語情報処理研究会, 2019-SLP-130(5)
- 関連する報告書
  2019 実施状況報告書

深層学習を用いた音声認識を最適化する音響モデル単位の自動獲得に関する研究

研究代表者

山本 一公 中部大学, 工学部, 教授 (40324230)

4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)

報告書

研究成果

[雑誌論文] Improvement of Elderly Speech Recognition Using Gammatone Filterbank Adaptation2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Language and Speaker-Independent Feature Transformation for End-to-End Multilingual Speech Recognition2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Effectiveness of Fine Linear Frequency Spectral Feature for Acoustic Event Detection2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Audio Classification of Bit-Representation Waveform2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] A New Corpus of Elderly Japanese Speech for Acoustic Modeling, and a Preliminary Investigation of Dialect-Dependent Speech Recognition2019

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 超高齢者音声コーパスEARS における超高齢者の音響的特徴2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] End-to-End複数言語音声認識モデルにおける様々なマルチタスク学習の検討2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Development and Evaluation of Kaldi Extension Tools with Python2019

著者名/発表者名

学会等名

関連する報告書

山本一公中部大学, 工学部, 教授 (40324230)