研究概要 |
本研究では,音声符号化における低ビット化技術の中核を成す従来のCELP系の符号化が限界に達していることから,聴覚特性を利用したボコーダ型の1.2kbps極低ビット音声符号化方式を新たに提案した.提案方式はLPCボコーダと同程度の情報を用いながら,その音質を良好なものとするために,いわゆるHarmonic codingの手法を採用し,その振幅成分を聴覚フィルタを用いて適応的に変調するものである.本研究では,聴覚フィルタの1つであるGammatoneフィルタを用いてharmonicsを変調する方法を提案し極低ビット化と音質維持を両立させることに成功した.また,音源信号の位相に関しても聴感特性を考慮した変調方法を提案し,主観的音質を向上させることができた.符号化音声の音質評価のために主観評価実験を行った結果,提案方法による合成音声の音質は,1.2kbpsのLPCボコーダのそれと比較してプリファレンススコアで37.5%,MOS値で0.45改善され,また2.4kbpsのMELP方式と比較して同程度の主観的音質が得られることが確認された.以上の成果により,1.2kbit/sにおいて音声符号化を行うことが可能となったが,提案方式では,音声信号の特徴量の周波数方向の変化に対する聴覚特性を利用するに留まっている.すなわち,現状のレートでさらに音質を向上する可能性,または現状の音質においてさらにレートを減少させる可能性があることを意味している.今後は,この2つの可能性について検討を行う方針である.
|