研究概要 |
本研究では,音声の低歪,低ビット符号化への応用を目的として,時間変化パタンの記憶,再生能力を有するリカレントニューラルネットワーク(RNN)を,音声のスペクトルパタンの補間に用いる符号化方式を提案した.提案したRNN補間器は多次元の時間変化パタンをその始端と終端の値のみから補間して復元する機能を有する.本研究では,まずRNN補間器の学習方法として,選択的通時的誤差逆伝播法(BPSS)を導く.これは時間的誤差逆伝播法(BPTT)を基にした方法で,1つのRNNに対して複数パタンの補間を行なわせることが可能となった.次に,RNN補間器の能力を評価するため,多項式から作成した時間変化パタンを被補間パタンとして用いた実験を行なうことにより補間器の基本特性を測定した.そして,音声信号のスペクトル情報を表わすパラメータの1つであるLSP係数の符号化へRNN補間器を応用する具体的方法について述べ,シミュレーションにより符号化後の音声のスペクトル歪を測定し,他の補間法を用いた場合との比較を行なった.その結果,スペクトル情報のみの符号化に際して,伝送レート約300bpsにおいて線形補間よりスペクトル歪が0.5dB減少し,主観評価実験の結果においても音質の向上が認められた.
|