研究概要 |
本研究では,音声の極低ビット符号化への応用を目的として,音声信号の有するフラクタル性を利用する高能率符号化方式を提案する.提案方式は複合正弦波モデル(CSWモデル)に基づき音声波形を少数のパラメータから合成する.CSWモデルは本研究で新たに提案された合成方式で,音声波形の時間的な連続性を重視することにより,特に音声区間での音質の向上を図ることができる方式である.このモデルにより合成された音声波形は元の音声信号波形とは異なるが,聴感上の了解度の明瞭度が向上するように情報圧縮が行なわれる. 提案方式LPCボコーダと類似な方法であるが、その音質を改善するために,音声信号をピッチ周波数の整数倍の周波数を有する正弦波によって合成する、いわゆるharmonic codingの手法を採用し、その振幅成分を聴覚特性を用いて適応的に変調する。提案方式では、聴覚特性を模擬するためにGammatoneフィルタを用いた。また、ビットレートを1.2kbpsに削減するためにスペクトル情報(LSP係数)をDPマッチングを用いてセグメント量子化する方法も提案し、スペクトル情報を450bpsで符号化することを可能とした。(スペクトル歪は1.9dB)試聴の結果、提案方法による合成音声の音質は、LPCボコーダのそれと比較してかなり改善されることが確認された。 符号化方式の評価として主観評価実験を行った結果、提案方式は1.2kbpsにおいて、5段階のMOS評価で、LPCボコーダを1.0上回る結果が得られた。
|