1997 Fiscal Year Annual Research Report
極低ビットレート音声符号化のための音声認識・合成系の検討
Project/Area Number |
09750399
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
益子 貴史 東京工業大学, 精密工学研究所, 助手 (90272715)
|
Keywords | 音声符号化 / 認識ボコーダ / 隠れマルコフモデル / 声質変換 |
Research Abstract |
現在,通信ネットワーク,あるいは音声信号の記録・蓄積システムのディジタル化にともない,音声信号のディジタルデータ圧縮を行う高能率符号化法が各種,提案,標準化されている.しかし,携帯電話などの移動体通信や専用回線などでは,総通信容量が有限であるため,さらに低ビットレートな音声符号化方式が求められている.このような観点から,音声信号の情報を究極まで削減することを考えたとき,最終的には発話された文章の文字情報だけを伝送する,つまり,発話内容を自動音声認識により音素列に変換・伝送し,再び音声を合成すればよいことがわかる.本研究では,隠れマルコフモデル(HMM)に基づき,音声認識・音声合成という過程により,音声を符号・複合化する極低ビットレート音声符号化方式(音声認識ボコーダ)を確立することを目的としている. HMM音声認識ボコーダでは,複合化器に用いられるHMMが一定であるために出力音声の声質が常に一定となり,不特定の入力話者の声質を再現できないという問題があった.そこで本研究では,入力話者の話者性に関する情報を音素列と共に符号化し,複合化器では送られてきた話者性に関する情報を用いて合成単位となるHMMを適応させることにより,不特定話者に対応する手法について検討した.具体的には,符号化器において,音素認識により対応づけられたHMMの出力分布列と入力音声のスペクトルパラメータ列に対し,出力分布列に対する入力パラメータ列の尤度が最大となるように各分布列の移動ベクトルを求める.これを一定の周期で伝送し,複合化器のモデルの出力分布を平行移動させることにより入力話者に対する適応を行う.主観評価実験により,提案手法の有効性を確認した.今後は,認識・合成単位であるHMMの構造や,ピッチや音韻継続長などの韻律情報のモデル化について検討を行い,また学会等で成果発表を行う予定である.
|