研究概要 |
本研究により, 音声による人間と機械との間のコミュニケーションの方法を確立する上で, メルケプストラム音響処理と多レベル知識処理による音声の認識合成システムが極めて有用なものであることが確かめられた. 本研究の準備段階で音声の音響, 音韻処理に対する見直しを行い, 高度な処理に利用し得る精密なスペクトル推定法として対数スペクトルの不偏推定法を考案した. 認識系を規則合成系を統合したシステムを構成するうえで実現が最も難しくしかも重要な部分は連続音声のセグメンテーションを行うサブシステムであるが, 本研究では, ラジオのニュース放送のように発声速度が速く, しかも長く連続した音声を約96.4%の確度でセグメンテーションとラベリングを行うことができる高性能のセグメンテーションシステムを実現した. このようなシステムを得ることが可能になったのは, 対数スペクトルの不偏推定法によって精密でしかも安定なスペクトル包絡を抽出できるようになったこと, セグメンテーションパラメータを得るための処理に特殊な擬似微分フィルタを利用したこと, それらによってセグメンテーションの知識処理が容易になったことなどに因る. 音声認識の処理において, 特徴パラメータおよび距離尺度の選択は重要な問題であるが, これに対して検討を加えた結果, 対数スペクトルの不偏推定法あるいは改良ケプストラム法によって抽出したメルケプストラムを用いて, 単純にユークリッド距離によるパターンマッチングによって, 高い認識率が得られることを明らかにした. 音声の規則合成システムの基本的な構成法が得られ, 一応実用になる品質の音声を合成できるシステムを実現したので, 更に音声の明瞭度と音質を向上させるための音源信号生成法の改良を行い, 破裂音と有声摩擦音の音質改善に対し良い結果を得た. 認識合成システム全体の評価は現在行っており, 近く成果を発表する.
|