2020 Fiscal Year Research-status Report
上腕動作をトリガーとして発話の運動指令を制御するMotion-To-Speech
Project/Area Number |
19K12086
|
Research Institution | Tohoku Institute of Technology |
Principal Investigator |
伊藤 仁 東北工業大学, 工学部, 教授 (00436164)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声合成 / ヒューマンインターフェース / モーションセンサー / 身体運動 |
Outline of Annual Research Achievements |
本研究では、手足の動作で合成音声のパラメータを即時的に制御するMotion-To-Speech(MTS)型の音声合成において、モーションセンサーで計測した腕の運動 情報からトリガーとなる動作を検出し、発話時の運動指令に対応するターゲットを更新する新たな手法の開発を目指している。これを実現するために人間工学的 な動作計測実験と、発声時の運動指令の構造を調べる発話分析実験を行う。 2019年度に行った動作計測実験の結果、手の動作によりフォルマント周波数を直接的に制御する手法では、/w/や/y/などのわたり音の生成に必要な遷移速度を実現することが難しいことが明らかになり、これに対応するために2020年度は手の空間位置だけでなく指先で制御するスイッチを用いた制御手法について検討した。 ここで検討した手法は、母音から母音への遷移は従来通り手の空間位置で、わたり音/w,y/や破裂音/p,t,k,b,d,g/など高速なフォルマント遷移を必要とする音韻は指先のスイッチでそれぞれ制御するものである。この手法の有効性を検証するために、モーションセンサーのマーカーと6個のスイッチを内蔵した入力デバイスを開発した。デバイスの基本的な性能を把握するために、ランダムに提示される番号に対して、それと対応したスイッチをできるだけ早く正確に押下させる実験を行った。被験者6名、試行回数500回の計測実験の結果、(1)誤ったボタンが押下される割合は約12%であり、特に人差指、中指、薬指間の押し間違いが多いこと、(2)番号が提示されてからボタンが押下されるまでの平均反応時間は0.8秒であること、(3)これらは入力デバイスのサイズやボタンの配置を改良した場合も殆ど変わらないことが分かった。この結果は、高速なフォルマント遷移を実現するためには、制御法について更なる改良が必要であることを示唆するものである。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2020年度は新型コロナウィルスの影響により、多くの被験者を集めて動作の計測や知覚に関する実験を進めることが困難であった。このため本研究の基本アイディアのひとつである音声生成時の脳内処理単位を調べる知覚実験について、十分な成果が得られなかった。人間の運動や知覚について調べる実験では、被験者の個人性の影響を抑制し、普遍的な性質を導き出すために、できるだけ多数の被験者に多数の試行を課すことが一般的である。また被験者の集中力を維持するためには、一度に複数の被験者を参加させ、ローテーションで休憩を取りながら実験を進めることが有効である。しかし、コロナ下ではこの様なやり方は実行することができない。本年度の研究では、特にこの点について改良が必要となる。 また上述した通り、2020年度に開発したスイッチを有する入力デバイスは、当初期待していた程の性能が得られなかった。特に比較的少ない6個のスイッチであっても、押下の誤りが1割程度発生してしまうことは非常に問題である。本研究のもうひとつの基本アイディアであるトリガー型の音声合成において、使用者の意図を素早く正確に入力できるデバイスは不可欠であり、最終目標であるリアルタイム音声合成システムを実現するためには、代替となる入力デバイスを早急に開発する必要がある。 一方、これら以外の要素技術、すなわち汎用のPC上でモーションセンサーとオーディオ信号を処理するリアルタイム処理システムや、時々刻々変化する制御パラメータを用いて高品質の音声を合成するフォルマント合成システムについては、順調に開発が進んでおり、上記2点の遅れが解消できれば、本研究の目標は十分に達成できると考えられる。
|
Strategy for Future Research Activity |
2021年度の研究では、まず2020年に続いて入力デバイスの開発に注力する。これまでは母音と子音を発声させる際に、異なる入力方法(手の位置とスイッチ)を想定していたが、2019~2020年度の研究により、この枠組みでは十分な性能が期待できないことが明らかになっている。現在のアルゴリズムは、使用者の身体動作からフォルマント周波数を定め、これに対応した声道伝達関数を計算し、音声を合成するものである。母音を合成する際には手の空間位置でフォルマント周波数を定め、子音ではスイッチで駆動された典型的な遷移パタンを用いてフォルマント周波数を制御する。しかし、音声合成に必要となる声道伝達関数は、フォルマント周波数以外のパラメータ、例えば声道断面積関数を用いても計算することが可能である。2021年度は、動作部の質量が小さく慣性の影響が少ない身体部位の動作を用いて、この声道断面積関数をリアルタイム制御し、母音と子音を統一的に合成できるシステムについて検討する。 また発声における脳内処理単位を調べる実験については、2021年度もコロナ下の制限は解除されないことを想定し、当初の計画より大幅に規模を縮小することで対応する。当初の計画では、調音で用いられる音韻、音節など時間方向の処理単位の実体について明らかにすることを目指していたが、2021年度は最低限、同じ調音位置(例えば破裂音/b/、鼻音/m/、わたり音/w/など)を有する音韻が、発話においてどの程度混同されやすいのか、調音方式や先行・後続母音による影響をどの程度受けるのか、について明らかにすることを目指す。この結果は、本研究で目指す音声合成システムの操作性の向上には有用であると期待できる。
|