2006 年度実績報告書

音源分離を規範とした音声認識手法に関する研究

研究課題

研究課題/領域番号	17650047
研究機関	北陸先端科学技術大学院大学
研究代表者	赤木正人北陸先端科学技術大学院大学, 情報科学研究科, 教授 (20242571)
研究分担者	鵜木祐史北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (00343187)
キーワード	音声認識 / 音源分離 / 雑音 / パターン認識法 / 計算論的音情景解析 / 仮説検証
研究概要	本研究では,雑音をモデル化する必要がなくどのような雑音にも対処可能な音声認識手法の新しい枠組みを提案する.具体的には,申請者らが提案した音源分離手法を認識規範として,従来の枠組みにとらわれない認識法を提案する.このため,1年目は,提案する手法によって高精度の音声認識が可能かどうかの詳細な議論を行った.提案手法では,認識対象に関する情報をtop-down的に音源分離部へ与え,この情報を用いて分離が完了するかどうかを観測する.比較的定常な楽器音の分離処理ではこの手法は成功しているが,母音系列に対しても適用可能かどうかの検討を行った.その結果,音声認識に使用可能であるという結論を得た. これを受けて2年目は,変化の激しい音声,特に単語に対して認識が行えるかどうかについて,検討した.具体的には (1)音源分離手法の子音を含む音声分離への拡充,および (2)音声認識への使用・組み込み法について検討した.その結果, <音源分離手法の子音を含む音声認識への拡充> 昨年度の雑音中の母音認識実験の結果を受けて,次の課題として子音を含む音声,特に単語の認識について検討した.周波数軸上でスペクトルの分離抽出を行うだけではなく,時間-周波数空間においてスペクトルを分離抽出することを試み,これを単語認識に応用した結果,従来法であるスペクトルサブトラクション法とか音響モデル適応法に比較して誤り率が数十%減少した.この結果を生かし,今後は単語数を増やして実験を行う予定である. <音声認識への使用・組み込み法の検討> 雑音環境中での未知単語あるいは任意の文章の認識を指向して,top-down的に与える認識対象に関する情報を自動的に生成する方法について検討を行った.生成のための学習パターン数がまだ少ないため,満足な生成は行えていないが,問題点は明確化されたので,今後,問題点の克服および実装を行う予定である.

研究成果
(1件)

すべて雑誌論文 (1件)

[雑誌論文] A Model-Concept of the Selective Sound Segregation : -A Prototype Model for Selective Segregation of Target Instrument Sound from the Mixed bound of Various Instruments -2006
- 著者名/発表者名
  Unoki M., Kubo M., Haniu, A., Akagi, M.
- 雑誌名
  
  Journal of Signal Processing 10,6
  
  ページ: 419-431