研究実績の概要 |
本研究では、手足の動作で合成音声のパラメータを即時的に制御するMotion-To-Speech(MTS)型の音声合成において、モーションセンサーで計測した腕の運動情報からトリガーとなる動作を検出し、発話時の運動指令に対応するターゲットを更新する新たな手法の開発を目指した。 音声のうち母音は声道の第1,2共振周波数であるF1とF2を身体動作で制御することで、孤立発話だけでなく滑らかな連続母音が合成できる。また母音/u/から母音/a/へのF1とF2の変化速度を変えた刺激の聴取実験では、変化速度が遅い場合に二連母音/ua/、中間の場合にわたり音節/wa/、速い場合に破裂音節/ba/が知覚されることが知られている。従って適切な動作速度を実現できる身体動作を選択すれば、Motion-to-speechでわたり音や破裂音も合成できる可能性があると考え、これを実現するための身体動作について検討した。 モーションセンサーを用いて身体動作の人間工学的な特性を評価する実験では、肩から先の腕全体を用いてF1とF2を制御する場合と、手首の角度を用いた場合を比較した。その結果、どちらの動作でもわたり音を生成するに足る速度は得られるが、腕全体を用いた場合には慣性が大きいため目標位置で動作を正確に停止させることが困難であることが分かった。またどちらの動作でも破裂音に必要な10ms以下の遷移時間を実現するのは難しいことも明らかになった。 これらの成果から、多様な音韻を生成可能なMotion-to-speechを実現するためには、手や指など慣性の影響を受けにくい小質量の部位を用いた動作を入力とすべきであると考えられる。この知見に基づき、声道型の入力デバイスを用いて、その形状を指で操作するMotion-to-speechシステムの試作を行った。
|