研究概要 |
本研究の目的は,ML-BEATS法を用いて音声信号中の類似区間を見つけ,それをひとつの符号として音声符号化を行うことで,極低ビットレートで品質の高い音声符号化方法を確立することにある。前年度は提案する方法をHTKを用いて実装し,その基本的な性能の評価を行った。その結果を受けて,今年度は特に次元分割の方法について検討を行った。 従来よりLSP係数を符号化する際には,10次元ベクトルを3次,3次,4次のように適当な次元に分割を行った上で符号化していた。しかしLSP係数は次元に意味を持たず,3次元目が4次元目にシフトする,といった現象がよく観察される。そこで,1次元目から3次元目,2次元目から4次元目,といったように1次元ずつずらしながら複数のベクトルを抽出し,そのすべてをひとつのHMMでモデル化する方法を提案した。こうすることで前述した次元のシフトに対して頑健なモデルを構築することが可能となる。この方法では,LSP係数を冗長性を持たせた状態でモデル化するため,HMMが大規模になってしまう,という問題点があるが,次元ごとに別々のエントロピー符号化を行うことで,ビットレートの低減を計る方法を開発した。 実際に音声符号化を行い,ケプストラム歪を用いて評価を行ったところ,3.3bit/frameという極低ビットレートの条件において,ケプストラム歪が1.38dBとなり,その有効性が確認された。しかし従来の方法に比べると,ビットレートはかなり低くすることができたが,その一方でケプストラム歪は依然として高いままであり,更なる高精度化が必要であることがわかった。
|