2010 Fiscal Year Annual Research Report
バリアフリー音声コミュニケーションのための次世代ボイスチェンジャー技術の構築
Project/Area Number |
22680016
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
戸田 智基 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (90403328)
|
Keywords | 音声情報処理 / 音声信号処理 / 音声合成 / 声質変換 / 声質制御 / リアルタイム処理 / 自動適応 / バリアフリー |
Research Abstract |
入力音声の特徴を自動的に学習しながら、リアルタイムで声質を自在に変換・制御できる次世代ボイスチェンジャー技術とその応用技術の構築を目指し、要素技術である高品質なリアルタイム声質変換法の構築(実施計画1)と自動オンラインモデル適応法の構築(実施計画2)に取り組んだ。 高品質なリアルタイム声質変換法として、時間フレーム間相関を考慮した短遅延変換処理と高次統計量を考慮した変換音声強調処理を実現した。また、高い変換性能を保ったまま演算量の削減を行うために、全共分散混合正規分布モデルに対する同時対角化処理を導入するとともに、応用例の一つである肉伝導音声から通常音声への変換においては、残差波形を利用した変換法を提案し、その有効性を示した。 自動オンラインモデル適応法として、最尤線形回帰処理に基づく変換モデルの教師無し適応法を提案した。また、適応データが少量しか得られない際に、より頑健な変換モデル適応処理を実現するために、最大事後確率推定処理を導入した。これらの適応法を様々な入力話者に対する変換処理(多対一変換)に適用し、従来法である固有声変換法と比較実験を行い、各手法の有効性を示した。 さらに、声質制御処理に必要となる出力側におけるモデル構築・適応技術(一対多変換)についても検討した。固有声変換に基づく声質制御法を拡張することで、声質制御機能を保ちつつ、声質適応機能を改善する手法を提案した。また、非線形処理に基づく声質制御法を提案し、声質制御性能を改善できることを示した。さらに、音声翻訳システムの出力音声の声質制御という応用例において、声質制御・適応技術を導入し、その有効性を示した。
|