2015 Fiscal Year Annual Research Report

大規模コーパスを利用した音声・音響信号の自動分類と音声認識への応用

Research Project

Project/Area Number	25330183
Research Institution	Yamagata University
Principal Investigator	小坂哲夫山形大学, 理工学研究科, 教授 (50359569)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	音声認識 / クラスタリング / 音響モデル / ディープニューラルネットワーク / 隠れマルコフモデル
Outline of Annual Research Achievements	音声コーパスの拡大および計算機の性能向上による演算スピートの増加により，高精度な音声認識が可能となりつつある．しかし音声や音響信号には多様性があり，常に良好に認識できるわけではない．話者による性能劣化，雑音や残響などの影響など，多くの問題点が残されている．本研究ではクラスタリング技術を用い，音声・音響信号の多様性による音声認識の性能劣化の問題に取り組んだ．手法としては信号の特徴を利用して自動分類により性質の類似した信号をクラス別にまとめ，クラスごとモデルを構築し認識に利用する．特に本研究では近年整備が進んでいる大規模音声コーパスを用い，従来十分検討されていなかった数百から数千の大規模なクラスタリングを試み，その効果の検討を行った．当初の予定では従来から用いられているガウス混合分布(GMM)ベースの隠れマルコフモデル(HMM)であるGMM-HMMを音響モデルとして用いる予定で，当初は予定通りGMM-HMMを用いて検討を行った．一方，近年深層学習(Deep Learning)にもとづくニューラルネットワーク，すなわちディープニューラルネットワーク(DNN)が音響モデルとして高い性能が得られることが分かってきた．このため期間の途中よりDNN-HMMを音響モデルとして用い，そのモデルのクラスタリンスについても検討した．検討の結果，従来のGMM-HMMにおいてもDNN-HMMでも，話者クラスタリングに基づく音響モデルは音声認識に有効であることが分かった．また話者クラスDNN-HMMについて，複数の話者クラスモデルに重みをつけて使用することの有効性を示した．また最終年度は雑音環境において，雑音の種類別にDNNでモデル化することの有効性を示し，音声検出に利用できることを示した．

Research Products
(4 results)

All 2016 2015 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results, Acknowledgement Compliant: 1 results) Presentation (2 results) Remarks (1 results)

[Journal Article] Deep Neural Network-Based Speech Recognition with Combination of Speaker-Class Models2015
- Author(s)
  Tetsuo Kosaka, Kazuki Konno, Masaharu Kato
- Journal Title
  
  Proc. of APSIPA ASC 2015
  
  Volume: SP2-2.3 Pages: 1-4
- DOI
  10.1109/APSIPA.2015.7415464
- Peer Reviewed / Open Access / Acknowledgement Compliant
[Presentation] ディープニューラルネットワークを用いた映画中の音声区間検出の検討2016
- Author(s)
  菅郁巳, 安原龍, 井上雅史, 小坂哲夫
- Organizer
  日本音響学会春季講演論文集
- Place of Presentation
  桐蔭横浜大学
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] ディープニューラルネットによる話者クラス音響モデルを用いた音声認識2015
- Author(s)
  今野和樹，加藤正治，小坂哲夫
- Organizer
  日本音響学会秋季講演論文集
- Place of Presentation
  会津大学
- Year and Date
  2015-09-16 – 2015-09-18
[Remarks] 小坂研究室ホームページ
- URL
  http://speech-lab.yz.yamagata-u.ac.jp/

2015 Fiscal Year Annual Research Report

大規模コーパスを利用した音声・音響信号の自動分類と音声認識への応用

Principal Investigator

小坂 哲夫 山形大学, 理工学研究科, 教授 (50359569)

Research Products

[Journal Article] Deep Neural Network-Based Speech Recognition with Combination of Speaker-Class Models2015

Author(s)

Journal Title

DOI

[Presentation] ディープニューラルネットワークを用いた映画中の音声区間検出の検討2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ディープニューラルネットによる話者クラス音響モデルを用いた音声認識2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Remarks] 小坂研究室ホームページ

URL

小坂哲夫山形大学, 理工学研究科, 教授 (50359569)