研究概要 |
本研究は,より人間の振る舞いに近い高度な音声合成,音声認識を目指すため,人間の音声生成過程を模擬した声道シミュレータを計算機上に構築することを主目的とする.声道シミュレータは声帯モデル,声道モデル,口唇放射モデルの3つの縦続モデルから構成されており,声帯モデルと声道モデルの相互作用は,フーリエ変換と離散化たたみこみにより両モデルを結合することで再現されている. この声道シミュレータを用いて,合成による分析法により,日本人成人男性が発話した日本語5母音に対して,実音声信号から発話時の声道形状の逆推定を試みた. 逆推定により得られた声道形状は,各母音とも,スペクトル包絡およびフォルマントが実音声信号と良好的に一致しているが,推定した声道形状とMRI(磁気共鳴画像)による実測例との比較では、母音によってその適合度合いに差が生じた.しかし,推定された声道形状に基づく合成音声は,十分に各母音と認識可能な品質であり,基本周波数のゆらぎを与えたことにより,より自然で話者の特徴を捉えた合成音声が得らた. 声道形状を表すMR像は,フィルムに現像されたアナログ画像をディジタル化して用いているために,声道輪郭が不鮮明な箇所もあり,声道形状を正確に復元しているかどうか問題が若干残されている.この点に関しては,現在,MRシステムから直接ディジタル化された画像を処理できるシステムを構築している. ここでは,定常な母音について取り扱ったが,音声現象を考えると音声の過渡部分に重要な情報が含まれている.本研究をさらに発展させて,子音を含んだ連続音声の合成およびその時の声道形状の推定について実施したい.
|