Research Abstract |
ハンズフリーは,マイクから離れた位置での発話(遠隔発話)となり,残響などの影響により,伝達特性が異なってくるので,音声認識は難しくなる。そのため,伝達特性の正規化が必要になる。我々は,予め場所ごとの多人数の多くの発話によりケプストラム平均を求めておき,この値によって,任意の発話を正規化する方法を提案し,良好な結果を得ている。 しかし、この方法は,発話場所(音源位置)が既知であるという前提があった。我々の実験では,40cm程度の推定誤差は,認識率の低下はしないことがわかっている。原理的には,4つのマイクロホンを用いると,マイクロホン対の音声の到達時間差(TDOA)を測定し,連立一次方程式の解から,正確に音源位置が同定できる。しかし,実際は,残響や雑音の影響によって,正確にTDOAを測定することは難しい。 リビングルームを想定した比較的大きな部屋(5m×6.4m×2.65m)で,音源位置の同定実験を行った。T-型マイクロホンアレーを天井に4ケ所,壁に4ケ所設置(合計32個のマイクロホン)し,それぞれのマイクロホンアレーによって音源位置を推定し,得られた8個の推定位置を統合して,音源位置を推定する方法を検討した。話者の発声した向きによっても,推定の難しさが異なってくる。東西南北の4方向で発声した場合に,発話場所ごとの位置の推定誤差を求めた。いずれかのマイクロホンアレーの近くでの発話は,場所の推定精度は良いが,部屋の真ん中付近での発話の場所推定は,1mを越える推定誤差がある。全場所にわたる推定誤差の平均は,約76cmであった。また,発話場所を仮定しない残響特性の正規化法も検討した。
|