2017 Fiscal Year Annual Research Report
Robust Method of Distance Estimation to a Speaker for Spoken Dialog System
Project/Area Number |
26330211
|
Research Institution | Aichi University of Technology |
Principal Investigator |
實廣 貴敏 愛知工科大学, 工学部, 准教授 (60394996)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 音声認識 / 音声対話システム / 音源距離推定 / 音響モデル / VQコードブック / 深層学習 / Deep Belief Network |
Outline of Annual Research Achievements |
音声対話システムでは,入力音声が音声認識対象と見なされるため,そうでない音声が観測された場合,適切に処理できず.ちぐはぐな応答になることが多い.そこで,音声自体を利用し,周囲状況を推定し,システム全体でより適切な応答ができるような技術を検討する.具体的には,単一マイクロホンにおいて,音声から空間伝達特性を推定することで,発話者の口からマイクまでのおよその距離を推定する.距離ごとに空間伝達特性のテンプレートを用意しておく.あらかじめ用意した雑音のないクリーン音声モデルと入力音声との周波数特性の差分を推定する.この差分が空間伝達特性となり,テンプレートとの照合により,最も近いものが示す距離が推定された距離となる.クリーン音声モデルとしてはデータベースから構築されたVQコードブックのセントロイドを用いた.入力音声の周波数特性に最も近い,セントロイドを選択し,その差分が空間伝達特性とした.クリーン音声に空間伝達特性をかけて作成したシミュレーションでは全体で7割程度の精度が得られるが,実際に収録した音声では,比較的近くの音声に対しては精度が高いが,それ以外では正しく推定できなかった.そこで,手法を検討し直し,近年パターン認識で成功しているDeep Neural Network (DNN)を用いることにした.基本的なDNNであるDeep Belief Network (DBN)を用いて,数十msの音声フレームごとに距離を識別,全フレームのラベルを多数決で距離を決定することとする.DBNでは大変パラメータも多く,検討項目が多くなるため,今回は0.2, 5 mのみの識別を行なった.F値で8割程度の性能が得られた.今後,より多くの距離を含む音声や特徴量,ニューラルネットワークの形状,などの検討を行なっていく予定である.
|
Research Products
(3 results)