極低ビットレート音声符号化のための音声認識・合成系の検討

Research Project

Project/Area Number	09750399
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	情報通信工学
Research Institution	Tokyo Institute of Technology
Principal Investigator	益子貴史東京工業大学, 大学院・総合理工学研究科, 助手 (90272715)
Project Period (FY)	1997 – 1998
Project Status	Completed (Fiscal Year 1998)
Budget Amount *help	¥2,400,000 (Direct Cost: ¥2,400,000) Fiscal Year 1998: ¥600,000 (Direct Cost: ¥600,000) Fiscal Year 1997: ¥1,800,000 (Direct Cost: ¥1,800,000)
Keywords	音声符号化 / 認識ポコーダ / 隠れマルコフモデル / 音声変換 / 認識ボコーダ / 声質変換
Research Abstract	通信ネットワーク,あるいは音声・オーディオ信号の記録・蓄積システムのディジタル化にともない,音声・オーディオ信号のディジタルデータ圧縮を行う高能率符号化が各種,提案,標準化されているが,携帯電話などの移動体通信や専用回線などでは総通信容量が有限であるため,より低ビットレートの音声符号化方式が求められる.このような観点から,音声信号の情報を発話内容の了解性を保ちながら究極まで削減することを考えたとき,最終的には発話された文章の文字情報だけを伝送すれば十分なことに思い当たる.本研究では,隠れマルコフモデル(HMM)に基づき,音声認識・音声合成という過程により,音声を符号・復号化する極低ビットレート音声符号化方式(音声認識ボコーダ)を確立することを目的としている. 我々は既にHMMに基づいて音韻情報を符号・復号化する手法を提案しているが,このシステムでは,入力話者によらず復号化器側のHMMに従って,一定の話者の声でしか音声を合成できない.これに対し,昨年度,我々は入力話者の話者性に関する情報を一定周期で伝送することにより不特定話者に対応する手法を提案した.しかし,提案手法では,話者情報を符号化することにより,符号化音声の品質が劣化するという問題が残されていた.そこで本年度では,一定周期で求めていた話者情報を音声認識により得られた音素の継続区間毎に求め,音素別に符号化する手法をとることにより,符号化音声の品質の改善を行った.符号化器で用いられるHMMの入力話者への適応については,入力音声に対応する正解音素列が与えられない教師無し話者適応となるが,教師無し話者適応自体が難しい問題であるため,今後さらなる検討を必要とする.さらに,韻律情報の符号化についても検討を行う予定である.

Report

(2 results)

1998 Annual Research Report
1997 Annual Research Report