研究概要 |
本研究では,欠落が生じても認識性能が低下しない音声認識手法の研究開発、および音声認識結果に基づき欠落区間の音声信号を音声合成により生成し自然音声に接続・補完する手法の研究開発を行っている。以下に,本年度の研究成果を研究項目ごとに示す。 (1)欠落に影響を受けにくい音声認識手法の研究 音声が欠落した区間の音響確率を等確率とし,言語モデルの確率および欠落前後数秒の音響確率を用いることで、0.2秒程度の音声欠落があった場合でも誤り増加率を1割程度までに抑制できることを確認した。一方で,欠落前のみの情報だけでは誤り率の増加を抑制できないことも明らかとなり,今後の検討の必要がある。 (2)音声認識用高速サーチエンジンの研究 サフィックスアレーを用いた高速サーチエンジンの基本設計を終了した。 (3)音源波形の推定法および話者性の抽出に関する研究 欠落していない区間の音声から音源波形を抽出するとともに、欠落部の前後のピッチから欠落区間のピッチを推定し、声道モデルに対応する音響モデルを励振するための音源波形を生成する手法をインプリメントし実験を行ったが,音質の改善はほとんど観測できなかった。一方、合成音声用の音響モデルをMLLRにより話者適応する実験では,僅かながら音質の改善を観測した。 (4)滑らかな波形の接続 時間軸上での滑らかな波形接続のための手法として、相互相関最大基準による接続法を開発した。これにより,接続部の不連続感を大幅に改善することに成功した。 (5)研究用音声データの収集 話者性の研究の一環として、同一話者が繰り返し同じ単語を発声した音声データを収集した。収集したデータを用い,複数の発声から一つの発声を合成する実験を行ったところ,同一話者の同一単語発声を結合した場合でも違和感が生じてしまうことが明らかとなり,話者性の問題の大きさを改めて確認する結果となった。
|