近年、音声による認証システムである話者照合システムの研究が行われており、電話を用いたクレジットカードによる販売や銀行取引における本人照合などへの応用が考えられている。音声を本人確認のためのキーとして用いる場合は、いかに他人の音声を受理する誤り(詐称者受理率)を減らすかが重要となるが、現在のところ、他人の音声やテープレコーダを用いた詐称については考慮されているものの、音声合成システムを用いた詐称に対してはほとんど考慮されていなかった。 既に予備的な実験により、話者照合システムの登録話者の少量の音声を用いて学習した隠れマルコフモデル(HMM)に基づく音声合成システムからの合成音声がテキスト指定型話者照合システムに高い確立で受理されることを確認している。しかしこの実験では、話者照合システムでは音声のスペクトル情報のみを用いており、合成音声の励振源として白色雑音を用いていた。そこで、スペクトル情報とともに話者情報が含まれていると考えられるピッチ情報を用いることにより、ピッチ情報を持たない白色雑音で励振した合成音声を棄却する手法について検討した。 スペクトルとピッチのモデル化に多空間確律分布に基づくHMMを用いた話者照合システムを構築し、合成音声に対する照合実験を行った。その結果、白色雑音で励振した合成音声に対しては受理率を大きく低下させることができた。しかし、音声合成システムでピッチも生成した場合には受理率は低下せず、今後、合成音声と自然音声を区別するための手法を検討する必要がある。
|