2019 年度実施状況報告書

上腕動作をトリガーとして発話の運動指令を制御するMotion-To-Speech

研究課題

研究課題/領域番号	19K12086
研究機関	東北工業大学
研究代表者	伊藤仁東北工業大学, 工学部, 教授 (00436164)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	音声合成 / ヒューマンインターフェース / モーションセンサー / わたり音
研究実績の概要	本研究では、手足の動作で合成音声のパラメータを即時的に制御するMotion-To-Speech(MTS)型の音声合成において、モーションセンサーで計測した腕の運動情報からトリガーとなる動作を検出し、発話時の運動指令に対応するターゲットを更新する新たな手法の開発を目指している。これを実現するために人間工学的な動作計測実験と、発声時の運動指令の構造を調べる発話分析実験を行う。 2019年度の研究では、片手の動作で母音と/y, w/などのわたり音を合成するシステムを開発し、使用者が目標とする音節をどの程度正確に再現できるか調べる実験を行った。これは、予備実験により得られた再現すべきターゲットの呈示と、動作に応じた自律的な音声合成の開始を組み合わせた手法を用いたものである。実験の結果、音量や音高など発声における音源情報を固定して、動作に合わせて声道フィルタだけを更新する条件では、被験者が約40分の訓練で動作による音声合成を習熟できることが分かった。また手の空間位置よりも掌の角度を入力動作とした場合の方が、制御精度が高く、応答速度も速くなることが確認された。しかし音声合成システムの操作に十分に習熟した被験者であっても、フォルマント遷移時間の下限は70 ms程度であり、手の動作で声道フィルタ特性を直接的に制御してわたり音/y, w/を合成することは難しかった。従って、これより短いフォルマント遷移時間（数～数十ms）により生成される閉鎖音/p, t, k, b, d, g/についても、手の動作により直接声道フィルタを制御するシステムでは合成するのが困難であると予測できる。これらの結果は、本研究の中心的なアイディアのひとつであるMTSシステムにおけるトリガー動作の必要性を強く示唆するものであると考えられる。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由計画初年度である2019年は、主にMTS型音声合成に用いる動作の評価方法について検討した。上述したフォルマント遷移を伴うわたり音の合成実験において、被験者に目標となる音声を呈示し、それを動作で再現させる実験方法の枠組みとしての有効性は確認できている。本研究の中心的なアイディアのひとつは、合成音声の音高やフォルマント周波数などのパラメータを、動作を用いて直接制御するのではなく、一連の動作をトリガーとする部分的なパターンの再生により制御することにある。2019年に確立したこの実験方法を用いて、トリガー動作を用いたMTS合成の有効性を検証する準備ができたと考えられる。また本研究において挑戦する、人間の音声生成時の運動指令の構造を調べる実験については、2019年度は予備的な検討を行うだけに留まっている。この実験の難しさは、被験者が発声を行っている最中に、ターゲットとなる音声を速やかに変更する部分にある。当初の研究計画では、/aba/から/ama/などテキスト文字によるターゲットの変更を考えていたが、実際に予備実験を行ったところ、被験者がターゲット変更のタイミングを把握しにくいという結果が得られた。この問題に対しては、テキスト文字だけでなく音声のスペクトログラムを利用することにより解決できる可能性が見出されており、2020年度にはこの手法を用いた発声分析実験を確立し、十分な成果が得られると期待できる。
今後の研究の推進方策	2020年度の研究では、まずトリガー動作の有効性を検証する実験を行う。そのために従来のフォルマント周波数を直接制御する動作に加えて、スイッチなどの入力をトリガーとして、音響特性が高速に時間変化するわたり音や閉鎖音を合成するMTSシステムを開発する。このシステムに対して、2019年度に開発した実験方法を用いて性能評価実験を行い、その有効性を定量的に検証する。また、これと並行して人間の音声生成時における運動指令の構造を調べる発話分析実験手法を開発する。そのために、まず前述したスペクトログラムを利用したターゲット変更アルゴリズムを実装し、その有効性を確認する。これが有効でない場合には、発声と同時に他のタスクを遂行させて発声者のメンタルロードを制御する手法など、他のアルゴリズムを検討する。発声分析実験は確かに難しいが、この実験により人間の発声の脳内構造に即した発声処理単位が明らかになれば、調音位置や調音方式といった従来のパラメータと比べて、MTS音声合成システムに用いるトリガーの数を大幅に削減できる可能性がある。このようにして得られた発声処理単位に基づくトリガー型のMTS合成システムは、本研究の計画最終年である2021年度に実装し、多数の被験者を用いてその性能を評価することを目指す。健常者を被験者とした実験によりシステムの有効性が十分に検証できた後、失声者を被験者とする評価実験を行い、実用性と今後の課題について明らかにする。
次年度使用額が生じた理由	予定していた発声分析実験の手法検討が間に合わず、この実験を行うための物品費と被験者謝金が執行できなかった。この実験については2020年度に実行する予定である。