2013 年度実施状況報告書

大規模コーパスを利用した音声・音響信号の自動分類と音声認識への応用

研究課題

研究課題/領域番号	25330183
研究種目	基盤研究(C)
研究機関	山形大学
研究代表者	小坂哲夫山形大学, 理工学研究科, 教授 (50359569)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	音声認識 / 話者 / クラスタリング / 音声コーパス
研究概要	音声コーパスの拡大および計算機の性能向上による演算スピートの増加により，高精度な音声認識が可能となりつつある．しかし音声や音響信号には多様性があり，常に良好に認識できるわけではない．話者による性能劣化，雑音や残響などの影響など，多くの問題点が残されている．本研究ではクラスタリング技術を用い，音声・音響信号の多様性による音声認識の性能劣化の問題に取り組む．信号の特徴を利用して自動分類により性質の類似した信号をクラス別にまとめ，クラスごとモデルを構築し性能向上を目指すことを目的としている．以上を実現する手段として，話者クラス音響モデルを用いた音声認識の検討を行った．日本語話し言葉コーパス(CSJ)に含まれる学習話者をクラス分けし，10～2667クラスと様々な話者クラスを自動分類により設定し，音響モデルを作成した．話者クラス音響モデルを用いるに当たって重要な点は，いかにして多数の話者クラスモデルから，入力音声に適した話者クラス音響モデルを選択するかである．本研究では確率モデルを使用しているため対数尤度を利用して選択を行った．この場合単純な方法では話者クラスの数の分だけ認識プロセスを実行する必要がある．しかし計算量の観点から現実的ではない．そこでマルチパス音声認識法を用い，第一パスで不特定話者音響モデルを使用して認識候補を絞りこみ，第二パスで多数の話者クラスモデルを使って尤度計算することにより計算量を削減する．しかしこの場合，第一パスと第二パスのモデルが一致していないため認識性能の劣化が起こる．そこで更に第二パスで選択した話者モデルを使用して，再認識することにより性能向上を図る．以上により計算量を削減しつつ認識性能の劣化を防ぐことができる．以上の提案法が認識実験により有効であることが確認された．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 25年度は基本検討のフェーズであり，目標として効果的なクラスモデルの作成とクラスモデル選択手法の検討を挙げている．クラスモデルについては既に１０クラスから，最大２６６７クラスの作成と，その実験を終了している．話者クラスモデルに関しては，数クラス程度の検討は従来から行われているが，１００を超えるクラスモデルを学習し認識に用いる検討は，殆ど行われていない．実験の結果数百程度のモデルの使用が効果的であることが分かり，従来不明であった大規模なクラスモデルを使用することの有効性が示された．一方モデルの選択手法に関しては，尤度を用いた手法を使用しているが，今のところこれ以上の有効な方法は見つけられていない．しかし，最適にモデルを選択することができれば，大幅な認識性能向上が得られることが判明しており，今後は選択法の検討が重要であることが分かった．以上から，おおむね順調に進展していると判断した．
今後の研究の推進方策	２６年度はクラスモデルの選択法およびシステム統合法の検討を目標として掲げていた．しかし，近年ディープニューラルネットを用いた音声認識手法の有効性が明らかとなっており，この手法を用いることにより大幅な認識性能向上が見込まれることも判明している．音声モデルとしては従来の隠れマルコフモデルとディープニューラルネットでは大きくその手法が異なるが，話者性を利用するという考えは両者共通に適用可能である．よって今後は研究方針を変更し，まずはディープニューラルネットを用いた話者クラスモデルについて検討を行い，隠れマルコフモデル同様に性能向上が可能かどうか検討を行う．また話者クラスモデルの選択についても尤度ではなくニューラルネットを用いた方法が可能か検討する．

研究成果
(6件)

すべて 2014 2013 その他

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (4件)

[雑誌論文] 話者クラス音響モデル及び単語グラフ統合を用いた音声認識2013
- 著者名/発表者名
  小坂哲夫，伊藤貴，加藤正治，好田正紀
- 雑誌名
  
  電子情報通信学会論文誌,
  
  巻: Vol. J96-D, No. 11 ページ: 2795-2803
- 査読あり
[雑誌論文] Speech recognition with large-scale speaker-class-based acoustic modeling2013
- 著者名/発表者名
  Kazuki Konno, Masaharu Kato and Tetsuo Kosaka
- 雑誌名
  
  Proc. of APSIPA ASC 2013
  
  巻: OS.28-SLA..9, 113 ページ: 1-4
- 査読あり
[学会発表] DNN-HMMを用いた日本語講演音声認識における話者適応の検討2014
- 著者名/発表者名
  小坂哲夫, 今野和樹, 高木瑛, 加藤正治
- 学会等名
  日本音響学会春季講演論文集
- 発表場所
  日本大学理工学部
- 年月日
  20140310-20140312
[学会発表] 大規模話者クラス音響モデルを用いた音声認識の精度向上の検討2013
- 著者名/発表者名
  今野和樹, 加藤正治, 小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  豊橋技術科学大学
- 年月日
  20130925-20130927
[学会発表] 単語グラフを用いた音声アライメント2013
- 著者名/発表者名
  加藤正治, 小坂哲夫
- 学会等名
  日本音響学会講演論文集
- 発表場所
  豊橋技術科学大学
- 年月日
  20130925-20130927
[学会発表] 雑音重複区間のモデル化による音声区間検出の性能向上
- 著者名/発表者名
  佐々木志貢, 加藤正治, 小坂哲夫
- 学会等名
  情報処理学会東北支部研究会
- 発表場所
  山形大学工学部

2013 年度 実施状況報告書

大規模コーパスを利用した音声・音響信号の自動分類と音声認識への応用

研究代表者

小坂 哲夫 山形大学, 理工学研究科, 教授 (50359569)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 話者クラス音響モデル及び単語グラフ統合を用いた音声認識2013

著者名/発表者名

雑誌名

[雑誌論文] Speech recognition with large-scale speaker-class-based acoustic modeling2013

著者名/発表者名

雑誌名

[学会発表] DNN-HMMを用いた日本語講演音声認識における話者適応の検討2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 大規模話者クラス音響モデルを用いた音声認識の精度向上の検討2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 単語グラフを用いた音声アライメント2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 雑音重複区間のモデル化による音声区間検出の性能向上

著者名/発表者名

学会等名

発表場所

2013 年度実施状況報告書

小坂哲夫山形大学, 理工学研究科, 教授 (50359569)