研究概要 |
本研究の目的は,ML-BEATS法を用いて音声信号中の類似区間を見つけ,それをひとつの符号として音声符号化を行うことで,極低ビットレートで品質の高い音声符号化方法を確率することにある。前年度までの結果を受け,本年度は新たな次元分割の方法を提案し,その効果を検証した。 前年度までは,10次元の特徴量ベクトルを数次元ごとに分割を行っていた。特に前年度は,1~3次元目,2~4次元目などと重複させながら分割することで,LSP係数特有の「次元のずれ」に対処した。しかし,この方法では,例えば途中で次元が消滅し,2~6次元目のベクトルが2~5次元目になる,といった場合には対処できなかった。そこで本年度は,1次元ずつすべて別々にし,スカラー時系列のセグメント量子化を行った。 実際に音声符号化を行い,スペクトル歪で評価を行ったところ,12.4bit/frameで1.8dBの歪と,従来法(18bit/frameで1.02dB)と比較して,より低いビットレートは達成できたが,歪が大きい結果となってしまった。昨年度の結果と比較しても大きな改善は見られず,実用化するにはまだまだ品質の改善が必要であることがわかった。 また,ML-BEATS法を今後様々な時系列データに適用していく上での課題も明らかになった。それは計算速度である。ML-BEATS法では,HMMの状態分割を行いながらパラメータの再学習と時系列の分割を行うため,膨大な計算量が必要となる。今後プログラムの実装を再検討し,計算速度を向上させることが必要である。
|