本研究では、喉頭摘出者が音声コミュニケーションを維持するための代用発声技術を創出することを目的として、口唇運動から音声波形を生成する合成モデルの検討、ならびにそのモデルを機械学習で実現するための音声コーパス作成を行った。合成モデルは低次元の音声特徴量を求めるエンコーダーと、メルスペクトログラムを推定するデコーダーから構成される。実験の結果、口腔の音響特性に加えて、アクセントやイントネーションを形成するピッチパタンを予測可能であり、十分に了解できる音声を合成できた。並行して、音声からリアルタイムMRIで測定した調音運動を復元するモデルを検討した。
|