本研究では,2マイクロホンを用いた話者追尾システムの開発について検討した。検討手法では,「時間-周波数」領域での音声エネルギーのスパース性を利用した。例え複数話者が同時に発話しても,スパース性により「時間-周波数」領域では1音声エネルギーが支配的な領域が存在し,そのような領域での推定は成功する。問題は,そのような領域の推定結果の選択法である。検討手法では,時間フレーム内の全周波数帯域の推定結果のヒストグラムを生成し,かつ話者移動に追従するため,フレーム毎にヒストグラムを逐次更新する。「時間-周波数」領域の各点の方向推定には演算負荷をならびにスパース性を最大限活用することを考慮してマイクロホン間の瞬時位相差を用いた。このようにして尖度の高いヒストグラムの作成が可能であるが,高い推定精度が期待できる高周波帯域において空間エイリアシングの影響により,ヒストグラム中に偽りのピークが生じる場合がある。この問題に対しては,推定精度は低いが空間エイリアシングの影響を受けない低周波帯域のヒストグラムに対して混合コーシー分布を当てはめ,混合要素分布を用いて音源ごとのペナルティ関数を求めた。その結果,評価関数が音源方向付近にのみピークを有するように設定し,多点探索手法であるPSO(Particle Swarm Optimization)を用いてピーク方向を探索した。PSOは高い集中化能力を有し,一般に多数のパーティクルを用いて複数回の更新で探索を行なうが,本研究で想定しているヒストグラムは尖度が高いため,高々数個のパーティクルを用いた1回更新で十分である。これは,演算量削減に貢献している。さらに,実機への搭載を考慮し,方向推定で必須の逆三角関数を積和演算のみで実現することについても検討した。実環境実験により,検討手法が5°程度のRMSEで実時間話者追尾できることを示した。
|