2017 Fiscal Year Annual Research Report

Robust Method of Distance Estimation to a Speaker for Spoken Dialog System

Research Project

Project/Area Number	26330211
Research Institution	Aichi University of Technology
Principal Investigator	實廣貴敏愛知工科大学, 工学部, 准教授 (60394996)
Project Period (FY)	2014-04-01 – 2018-03-31
Keywords	音声認識 / 音声対話システム / 音源距離推定 / 音響モデル / VQコードブック / 深層学習 / Deep Belief Network
Outline of Annual Research Achievements	音声対話システムでは，入力音声が音声認識対象と見なされるため，そうでない音声が観測された場合，適切に処理できず．ちぐはぐな応答になることが多い．そこで，音声自体を利用し，周囲状況を推定し，システム全体でより適切な応答ができるような技術を検討する．具体的には，単一マイクロホンにおいて，音声から空間伝達特性を推定することで，発話者の口からマイクまでのおよその距離を推定する．距離ごとに空間伝達特性のテンプレートを用意しておく．あらかじめ用意した雑音のないクリーン音声モデルと入力音声との周波数特性の差分を推定する．この差分が空間伝達特性となり，テンプレートとの照合により，最も近いものが示す距離が推定された距離となる．クリーン音声モデルとしてはデータベースから構築されたVQコードブックのセントロイドを用いた．入力音声の周波数特性に最も近い，セントロイドを選択し，その差分が空間伝達特性とした．クリーン音声に空間伝達特性をかけて作成したシミュレーションでは全体で７割程度の精度が得られるが，実際に収録した音声では，比較的近くの音声に対しては精度が高いが，それ以外では正しく推定できなかった．そこで，手法を検討し直し，近年パターン認識で成功しているDeep Neural Network (DNN)を用いることにした．基本的なDNNであるDeep Belief Network (DBN)を用いて，数十msの音声フレームごとに距離を識別，全フレームのラベルを多数決で距離を決定することとする．DBNでは大変パラメータも多く，検討項目が多くなるため，今回は0.2, 5 mのみの識別を行なった．F値で8割程度の性能が得られた．今後，より多くの距離を含む音声や特徴量，ニューラルネットワークの形状，などの検討を行なっていく予定である．

Research Products
(3 results)

All 2018 2017 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (1 results) Remarks (1 results)

[Journal Article] 単一マイクロホン入力音声から音響モデルを用いた発話者との距離推定2017
- Author(s)
  李津, 實廣貴敏, 武田一哉
- Journal Title
  
  愛知工科大学紀要
  
  Volume: 14 Pages: 1-7
- Peer Reviewed
[Presentation] Deep Belief Networkを用いた単一マイクロホンによる発話者までの距離推定2018
- Author(s)
  宮嶋博, 布目貴大, 實廣貴敏, 武田一哉
- Organizer
  日本音響学会2018年春季研究発表会
[Remarks] 愛知工科大学：實廣研究室：研究外部資金による研究
- URL
  http://www1.aut.ac.jp/~jtlab/AUT_JTLAB/yan_jiu_zi_jin.html