• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実施状況報告書

長時間分析窓を用いて得られる位相特徴による音声認識性能の改善に関する研究

研究課題

研究課題/領域番号 24500201
研究機関豊田工業高等専門学校

研究代表者

山本 一公  豊田工業高等専門学校, 情報工学科, 准教授 (40324230)

研究分担者 中川 聖一  豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (20115893)
キーワード音声認識 / 音響特徴量 / 位相スペクトル / 分析窓 / 長時間分析 / 群遅延 / 音響モデル
研究概要

音声認識に使われている音響特徴量は、振幅スペクトルに基づくものがほとんどであり、人間の聴覚特性が位相に鈍感であるという聴覚主観評価実験の結果に基づいて、位相スペクトルは特徴量としては無視されてきた。しかし、最近の研究で、位相スペクトルにも音声認識が可能となる情報が含まれていることが分かって来た。そこで、本研究では、従来無視されてきた位相スペクトルを効果的な特徴量として音声認識に用いる方法について検討を行っている。
本年度は、先に提案した長時間窓を用いた群遅延に基づく特徴量(Long-Term Group Delay Cepstrum; LTGDC)を音声認識において効果的に用いるために、最近さかんに研究が行われるようになった深層学習(Deep Learning)を活用した隠れマルコフモデル、DNN-HMMに対してLTGDCを用いる検討を行った。DNN-HMMは、従来のガウス分布を用いて出力確率を計算するHMM(GMM-HMM)とは異なり、深層学習により学習されたニューラルネットワークであるDeep Neural Network(DNN)を用いて、HMM状態の確率を事後確率として求めることにより認識性能を改善するモデルである。DNN-HMMには、確率計算に用いられているのがニューラルネットワークであるため、GMMに比べて次元数の大きい特徴量を用いるのが容易であるという利点がある。本研究では、振幅スペクトルに基づく特徴量であるMFCCとLTGDCを組み合わせ、さらに長い音素環境(当該音素の前後に出現する音素)を考慮するために、複数の分析フレームをまとめてDNNの入力とすることで、性能改善を試みた。その結果、LTGDCは長い分析窓で分析された特徴量であるが、複数の分析フレームを結合することで、更なる認識性能の改善が得られ、位相特徴においても時間変化を用いることが効果的であることが分かった。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

位相特徴を上手く活用できる音響モデルの検討については、本年度の研究により、DNN-HMMに複数フレームを入力することで、振幅スペクトルとの併用と音素環境の考慮を同時に行うことができ、今後の研究でこれを利用できることが分かった。この点については特に遅れは生じておらず、順調に進捗している。
しかし、位相特徴そのものの分析に関しては研究が遅れており、現在のところは、従来提案したLTGDCを使用し続けている状態である。本年度行った検討の中で、短時間窓によって得られるいくつかの新たな位相特徴の求め方を導入し比較・検討することで、位相の特徴を考察できる可能性は示唆されたものの、まだ不十分である。最終年度はこの点を重点的に研究していく必要がある。

今後の研究の推進方策

今後は、位相スペクトルに関する検討を重点的に行っていく予定である。本年度の検討の中で、線形予測分析によって得られる線形予測フィルターの位相特性からスムースな群遅延を求める方法や、和歌山大学・河原教授によって研究・開発が行われている、TANDEM-STRAIGHT音声分析合成系を用いることでスムースな群遅延を得る方法があることが分かった。これらの方法は短時間窓でスムースな群遅延を得ることができる。位相特徴(群遅延)を特徴量として用いる際の最大の問題は、そのスペクトルがスムースでなく、インパルス状の成分が発生してしまうことであり、我々の提案したLTGDCが比較的効果的なのは、長時間窓にすることでスムースな群遅延が得られることが理由の一つである。短時間窓でスムースな群遅延が得られる方法であれば、長時間窓によるデメリットがなく、より効果的な特徴として音声認識に利用できると考えられる。これらの点を、迅速に検討していく。

次年度の研究費の使用計画

所属機関都合(教員人事交流)により、1年間の期間で所属機関が豊田工業高等専門学校に変わったため、本年度に計画していた物品(音声処理用ワークステーション)の購入を、翌年度初頭まで延期したため。
次年度初頭に、本年度に購入予定であった物品(音声処理用ワークステーション)を購入する。予定額は次年度使用額のほぼ全てである。

  • 研究成果

    (2件)

すべて 2013

すべて 学会発表 (2件)

  • [学会発表] Fast NMF based approach and VQ based approach using MFCC distance measure for speech recognition from mixed sound2013

    • 著者名/発表者名
      Shoichi Nakano, Kazumasa Yamamoto, Seiichi Nakagawa
    • 学会等名
      2013 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
    • 発表場所
      Kaohsiung, Taiwan
    • 年月日
      20131029-20131101
  • [学会発表] NMF による音楽重畳音声の音声認識の改善2013

    • 著者名/発表者名
      橋本尚亮, 仲野翔一, 山本一公, 中川聖一
    • 学会等名
      日本音響学会2013年秋季研究発表会
    • 発表場所
      豊橋技術科学大学
    • 年月日
      20130925-20130927

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi