2014 Fiscal Year Annual Research Report

長時間分析窓を用いて得られる位相特徴による音声認識性能の改善に関する研究

Research Project

Project/Area Number	24500201
Research Institution	Toyohashi University of Technology
Principal Investigator	山本一公豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)
Co-Investigator(Kenkyū-buntansha)	中川聖一豊橋技術科学大学, その他部局等, 教授 (20115893) [Withdrawn]
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	音声認識 / 音響特徴量 / 位相スペクトル / 長時間分析 / 群遅延 / 音響モデル / 深層学習 / 雑音環境
Outline of Annual Research Achievements	音声認識に使われている音響特徴量は、振幅スペクトルに基づくものがほとんどであり、人間の聴覚特性が位相変化に対して比較的鈍感であるという聴覚主観評価実験の結果に基づいて、位相スペクトルは特徴量としては無視されてきた。しかし、最近の研究で、位相スペクトルにも音声認識が可能となる情報が含まれていることが分かってきた。そこで、本研究では、従来無視されてきた位相スペクトルを効果的な特徴量として音声認識に用いる方法について検討を行った。本年度は、昨年度までに行った研究から継続して、実環境大語彙連続音声認識において、位相特徴を用いる方法について検討を行った。音響モデルとしては昨年度検討を行ったDeep Neural Network (DNN)を用いたDNN-HMMを用いた。しかしながら、昨年度までと同じような形で特徴量を統合しても、認識精度の改善はほとんど得られず、雑音環境下においては、むしろ位相特徴を用いることで認識精度が低下してしまう現象が見られた。これは、雑音環境下で正確に位相情報（群遅延）を求めることが難しいためであると考えられる。そこで、実環境下で頑健な認識が行えるように、方針を一部改めることとした。まず、DNN-HMMを用いた音響モデルによって、雑音環境下で頑健な音声認識を行うための特徴量入力手段を検討し、その後それに位相情報（時間情報）を追加するという方針である。DNN-HMMへの特徴量入力手段としては、スペクトルサブトラクションにより前処理を施して雑音を低減した音声特徴量と共に雑音情報を入力することで、DNN内部での雑音に対する頑健性を向上させ、認識精度を向上させることができた。位相は音声波形のエネルギーに関する時間情報を表すことが分かり、位相情報の追加方法として、時間領域ガンマトーンフィルタによる特徴抽出とDNNへの入力を試みたが、残念ながらこちらはまだ道半ばという状況である。

Research Products
(3 results)

All 2015 2014

All Presentation (3 results)

[Presentation] Noise-aware trainingとSSを併用したDNN-HMM音響モデルの雑音下音声認識の評価2015
- Author(s)
  阿部晃大, 山本一公, 中川聖一
- Organizer
  日本音響学会2015年春季研究発表会
- Place of Presentation
  中央大学後楽園キャンパス
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] Speech recognition based on Itakura-Saito divergence and dynamics / sparseness constraints from mixed sound of speech and music by non-negative matrix factorization2014
- Author(s)
  Naoki Hashimoto, Kazumasa Yamamoto, Seiichi Nakagawa
- Organizer
  INTERSPEECH 2014
- Place of Presentation
  Singapore EXPO（シンガポール）
- Year and Date
  2014-09-15 – 2014-09-18
[Presentation] Comparison of syllable-based and phoneme-based DNN-HMM in Japanese speech recognition2014
- Author(s)
  Hiroshi Seki, Kazumasa Yamamoto, Seiichi Nakagawa
- Organizer
  International Conference on Advanced Infomatics: Concepts, Theory and Applications (ICAICTA 2014)
- Place of Presentation
  バンドン工科大学（インドネシア）
- Year and Date
  2014-08-20 – 2014-08-21

2014 Fiscal Year Annual Research Report

長時間分析窓を用いて得られる位相特徴による音声認識性能の改善に関する研究

Principal Investigator

山本 一公 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)

Research Products

[Presentation] Noise-aware trainingとSSを併用したDNN-HMM音響モデルの雑音下音声認識の評価2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Speech recognition based on Itakura-Saito divergence and dynamics / sparseness constraints from mixed sound of speech and music by non-negative matrix factorization2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Comparison of syllable-based and phoneme-based DNN-HMM in Japanese speech recognition2014

Author(s)

Organizer

Place of Presentation

Year and Date

山本一公豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)