研究概要 |
本研究では,音声の極低ビット符号化への応用を目的として,音声信号の有するフラクタル性を利用する高能率符号化方式を提案する.開発中の方式は複合正弦波モデル(CSWモデル)に基づき音声波形を少数のパラメータから合成する.CSWモデルは本研究で新たに提案された合成方式で,音声波形の時間的な連続性を重視することにより,特に有声区間での音質の向上を図ることができる方式である.このモデルにより合成された音声波形は元の音声信号波形とは異なるが,聴感上の了解度と明瞭度が向上するように情報圧縮が行なわれる. 今年度はCSWモデルにおける位相情報が主観品質に及ぼす影響に関して基礎的な検討を行った.具体的には, (1)位相情報が主観音質に与える影響の周波数依存性 (2)時間軸上での位相情報のゆらぎ成分が主観音質に与える影響 主観評価の結果,位相情報そのもの(絶対値)が音質に及ぼす影響は小さく,逆に時間的な位相の変動や,基本周波数成分に対する位相差(群遅延)が主観品質に及ぼす影響が大きいことが確認された.これらを忠実に符号化,伝送すれば良好な音質で音声を合成可能であるが,本研究の最終的な目標である1kbpsでの極低ビット符号化を実現するためには,この位相情報を忠実に伝送することは不可能である.そこで,この時間変動成分を疑似的に発生させるモデルとしてフラクタルシステムを用い,フラクタルシステムを制御するパラメータの伝送のみで聴感上自然な位相ゆらぎを再現できるようにすることが来年度の研究計画である.
|