2012 Fiscal Year Research-status Report

長時間分析窓を用いて得られる位相特徴による音声認識性能の改善に関する研究

Research Project

Project/Area Number	24500201
Research Category	Grant-in-Aid for Scientific Research (C)
Research Institution	Toyohashi University of Technology
Principal Investigator	山本一公豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)
Co-Investigator(Kenkyū-buntansha)	中川聖一豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (20115893)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	音声認識 / 音響特徴量 / 位相スペクトル / 分析窓 / 長時間分析 / 群遅延 / 音響モデル
Research Abstract	音声認識に使われている音響特徴量は、振幅スペクトルに基づくものがほとんどであり、人間の聴覚特性が位相変化に鈍感であることから、位相スペクトルは特徴量としては無視されてきた。しかし、最近の研究で位相スペクトルにも音声認識が可能となる情報が含まれていることが分かって来た。そこで本研究では、従来無視されてきた位相スペクトルを効果的な特徴量として音声認識に用いる方法について検討を行っている。本年度前半は、海外の研究機関で研究できるという稀な機会を得たため、位相スペクトル特徴に関連して、実走行車内に設置した遠隔マイクロホンにより収録された音声に対する音声認識性能を向上させる目的で、その研究機関で行われていた聴覚特性を応用した音響特徴量を用いた頑健な音声認識について研究を行った。研究の結果、遠隔マイクロホンにより音声を収録することで伝達特性が変化してしまい、音声認識に悪影響が起きていることが分かった。当該機関で提案し使用されていた音響特徴量には伝達特性の補償がフレームワークに含まれていたが、これが有効に働いていないことが分かった。これに対して、対数スペクトル領域において伝達特性を補償するための演算を追加することで、悪影響が抑制され音声認識精度が改善されるという結果を得た。その後、本来の計画である位相スペクトル特徴の基本的な特性解析を行った。しかし、音声認識に対してどのような位相スペクトルの特性が有効に働いているのかという決定的な事実はまだ分かっていない。連続音声認識への適用については、振幅スペクトル特徴と併用することを検討した。孤立発声に対する音声認識の場合（単語単位の長いモデルを用いる場合）については効果が見られたものの、従来の隠れマルコフモデルに基づく音素単位の短い音響モデルでは期待通りに働かないという結果となった。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 研究実績の概要に述べた通り、本研究では従来無視されてきた位相スペクトルを効果的な特徴量として音声認識用いる方法について検討を行う。本年度は、位相スペクトル特徴と分析窓長の関係、および、孤立単語音声認識において位相スペクトルが音声認識精度を向上させることができた理由についての基礎的な検討を行う予定であった。しかし、本年度前半を、海外の研究機関での聴覚特性を応用した音響特徴を用いたロバスト音声認識の研究に費やしたことで、本来の目的である位相スペクトル特徴のどのような性質が音声認識に対して有効かを突き止める研究がやや遅れている。もちろん、聴覚特性を応用した音響特徴を用いた音声認識の研究は無駄ではなく、研究最終年度や継続研究として行う予定であった音声認識に役立つ様々なアプローチからの音響特徴量の組み合わせの一部となるものであり、先の予定をやや先取りする形で行ったこととなる。この成果は最終年度に生かせると考えている。本年度行う計画であった、位相スペクトルに関する基礎的な検討（位相スペクトルが持つ音声認識に有用な情報の分析、長い分析窓による影響調査、群遅延スペクトル特徴以外の特徴量表現）については、まだ道半ばではあるものの、研究は進んでいると考えている。
Strategy for Future Research Activity	今後は共同で研究を行う学生とも協力することで、やや遅れている位相スペクトルに関する基礎的な検討（位相スペクトルが持つ音声認識に有用な情報の分析、長い分析窓による影響調査、群遅延スペクトル特徴以外の特徴量表現）を迅速に進めて行く予定である。学生と協力することで、様々な認識実験に関する試行を効率よく行うことができるようになり、研究のスピードアップが図れると考えている。また、連続音声認識への位相スペクトル特徴の適用については、計画通り長い音素環境を考慮した音響モデルの検討を行って行く予定である。このために、多種多次元の音響特徴を同時に効率良く利用できる手法として最近非常に注目されている、ディープニューラルネットワークの利用を検討する。ディープニューラルネットワーク複合型隠れマルコフ（DNN-HMM）を用いることで、従来の隠れマルコフモデルではスムーズにできなかった学習が汎化される。それにより、音声認識性能の向上が期待できる。また、ニューラルネットワークを用いることにより、MFCCと位相スペクトル特徴の併用により次元数が増加する問題も解決することができる。DNN-HMMは、別の研究プロジェクトの成果として既に利用できる環境が研究室内で整えられているため、スムーズに研究開発が行えると考える。
Expenditure Plans for the Next FY Research Funding	本年度前半に海外の研究機関で研究を行ったことで、購入する予定であった音声処理用ワークステーションおよびデータ保存用ストレージデバイスの要求仕様決定が遅れたことから、その分の予算を次年度に繰り越す。次年度はこれを用いて音声処理用ワークステーションおよびデータ保存用ストレージデバイスを購入する計画である。

Research Products
(2 results)

All 2013 2012

All Presentation (2 results)

[Presentation] ケプストラム距離に基づくNMFの高速化手法とVQ手法による音楽重畳音声の認識2013
- Author(s)
  仲野翔一, 山本一公, 中川聖一
- Organizer
  日本音響学会2013年春季研究発表会
- Place of Presentation
  東京工科大学
- Year and Date
  20130313-20130315
[Presentation] Fast NMF based approach and improved VQ based approach for speech recognition from mixed sound2012
- Author(s)
  Shoichi Nakano, Kazumasa Yamamoto, Seiichi Nakagawa
- Organizer
  Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC) 2012
- Place of Presentation
  アメリカ, ハリウッド
- Year and Date
  20121203-20121206

2012 Fiscal Year Research-status Report

長時間分析窓を用いて得られる位相特徴による音声認識性能の改善に関する研究

Principal Investigator

山本 一公 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)

Current Status of Research Progress

Reason

Research Products

[Presentation] ケプストラム距離に基づくNMFの高速化手法とVQ手法による音楽重畳音声の認識2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Fast NMF based approach and improved VQ based approach for speech recognition from mixed sound2012

Author(s)

Organizer

Place of Presentation

Year and Date

山本一公豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)