研究概要 |
本研究では,時間変化パタンの記憶・再生能力を持つリカレントニューラルネットワークを音声スペクトルパタンの補間に用いた極低ビット符号化方式を提案した.提案方法について,連続音声から得られた時間変化スペクトルパタンを用いて,リカレントニューラルネットワークを学習させる際の最適学習方法を検討し,必要なパーセプトロン数,補間可能なパタン数などの定量的評価を計算機シミュレーションにより検討を行なった. (社)日本音響学会の連続音声データベースから学習パタンを作成し,これを線形予測係数の1つであるLSP係数に変換し,これを対象として実験を行なった. リカレントニューラルネットワークの学習は通時的誤差逆伝播法を用いて行なった.この際,似通ったパタンを予め分類しクラスタ化して複数の(4個程度)リカレントニューラルネットワークにより並列的に処理することが有効であることが分かった.またリカレントンニューラルネットワークを構成するパーセプトロンの数は10次のLSP係数の場合,50程度必要であることが分かった.また,補間可能なパタン数は,パタンの幾何学的な分散の大きさに依存し,分散が10%程度では約100個のパタンの補間処理が可能であることが分かった.最終的に補間,符号化後の音声のスペクトル歪は4.33dBで,伝送レートとして80.6bpsを得た.これは,線形補間,スプライン補間を用いた場合と比較して若干小さい歪であった.
|