研究課題
本研究では,ごく少量のデータでスペクトル情報と韻律情報,話速などを統一的に変換する声質変換手法を構築した.従来の声質変換手法が音色を表すスペクトル情報のみに注目していたのに対し,提案法では,声の高さや抑揚・話速など,話者性を含むすべての情報を統一的に扱うため,相互の相関を利用してより高精度な声質変換を実現することができる.評価実験においては,スペクトル情報と基本周波数を同時にモデル化することによって,変換性能が改善されることが示された.また,継続長モデルを含む統計モデルに基づいたスペクトル特徴と話速の同時変換についても有効性が示された.また,近年,音声認識や音声合成で適用されたベイズ基準を声質変換に適用し,ごく少量のデータで瞬時に高精度な変換器を構築するための枠組みを提案した.従来の声質変換で用いられてきた尤度最大化(ML)基準では,モデルパラメータを点推定するため,学習データが少量の際に推定精度が低下するという問題があった.これに対しベイズ基準ではモデルパラメータを周辺化することによって高い汎化性能を得ることができる.また,ベイズ基準ではデータに関する事前情報を利用ことによって,モデルの推定精度を高めることができる.本研究では,この事前分布の設定において,因子分析に基づいて構造化された事前分布を利用する手法を提案した.この手法では,多数の話者の音声データから因子分析の構造を利用して,あらかじめ効率的な話者表現を自動的に取得し,対象話者の音声データがごく少量の場合においても,精度良くモデル化を行うことができる.評価実験において,ベイズ基準の近似である事後確率最大化(MAP)基準に構造化事前分布を用いることにより,客観評価が改善することが示された.
すべて 2014
すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (6件) (うち招待講演 1件)
IEEE Transactions on Audio, Speech, and Language Processing
巻: Vol. 8, Issue 2 ページ: 229-238
10.1109/JSTSP.2014.2305919
IEICE TRANSACTIONS on Information & Systems
巻: vol.E97-D, no.6 ページ: 1438-1448