研究実績の概要 |
本研究では、手足の動作で合成音声のパラメータを即時的に制御するMotion-To-Speech(MTS)型の音声合成において、モーションセンサーで計測した腕の運動情報からトリガーとなる動作を検出し、発話時の運動指令に対応するターゲットを更新する新たな手法の開発を目指している。これを実現するために人間工学的な動作計測実験と、発声時の運動指令の構造を調べる発話分析実験を行う。 2019年度の研究では、片手の動作で母音と/y, w/などのわたり音を合成するシステムを開発し、使用者が目標とする音節をどの程度正確に再現できるか調べる実験を行った。これは、予備実験により得られた再現すべきターゲットの呈示と、動作に応じた自律的な音声合成の開始を組み合わせた手法を用いたものである。実験の結果、音量や音高など発声における音源情報を固定して、動作に合わせて声道フィルタだけを更新する条件では、被験者が約40分の訓練で動作による音声合成を習熟できることが分かった。また手の空間位置よりも掌の角度を入力動作とした場合の方が、制御精度が高く、応答速度も速くなることが確認された。 しかし音声合成システムの操作に十分に習熟した被験者であっても、フォルマント遷移時間の下限は70 ms程度であり、手の動作で声道フィルタ特性を直接的に制御してわたり音/y, w/を合成することは難しかった。従って、これより短いフォルマント遷移時間(数~数十ms)により生成される閉鎖音/p, t, k, b, d, g/についても、手の動作により直接声道フィルタを制御するシステムでは合成するのが困難であると予測できる。これらの結果は、本研究の中心的なアイディアのひとつであるMTSシステムにおけるトリガー動作の必要性を強く示唆するものであると考えられる。
|