Research Abstract |
音声の極低ビット符号化・合成方式として, ベクトル量子化手法をセグメント単位に拡張したセグメント量子化(マトリックス量子化)法が提案され, 150〜200bit/Sの極低ビット符号化で, 明瞭度の優れた合成音が得られている. しかし, これらの手法は従来からの符号化の範ちゅう内のもので, パターン(音声特徴パラメータ・ベクトル)の統計的分布の偏りは(VQ手法を通して)利用しているが, 情報源の内容は積極的には利用されていない. 更に低符号化を実現するには言語に依存した符号化法を導入する必要があった. 本研究では, 情報源の内容まで立ち入った音声の超極低ビット符号化法, いわゆる知的符号化・認識符号化(認識ボ.コーダ)に関して新しい方式を提案した. まず初めに, 入力音波を音声分析し, 10msごとにPARCOR係数, ピッチ周波数, パワーを抽出する. これらの特徴パラメータの時系列とあらかじめ作成されている約500個の音節標準パターン(同様な特徴パラメータ時系列)と照合し, 最適な音節系列に変換する. 音節符号化のために9ビット, ピッチ, パワー, 継続時間長はそれぞれ7レベル, 5レベル, 3レベルで表現し, 合計105通り(7ビット)で表現する. 合成時には, これらの符号化手続きの逆手順で達成する. つまり, 対応する音節標準パターンの原波形をピッチ, パワー, 継続時間長に従って線形に補間しながら接続し, 合成する. 次に, 音節単位への符号化精度を上げるために, HMMをベイズ識別法とを用いたセグメンテーションアルゴリズムを提案した. その結果, ヒューソスティックな継続時間制御を使用して, 音節の繰り返しになっているデータのみの場合95%以上, 音節データに撥音, 長母音, 二重母音を加えた場合93%以上のセグメンテーション率が得られた.
|