本研究において、人間と同等の発声器官をエアポンプ、人工声帯、声道共鳴管、音響アナライザなどを用いて全て機械的に構成し、聴覚フィードバック学習によって自律的に音声を獲得、生成することができる発話ロボットを構築した。特に声道部は柔らかいシリコーンゴムを用いており、これを柔軟に制御することによって特定の音響を生成できることを示し、ソフトロボット構築の観点からその有効性を考察した。 最終年度は、機械式発話システムが聴覚フィードバックによる模倣学習によって音声を獲得する課程について、人間の脳機能を再現した学習モデルを構築し、その有効性を検証した。小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークに着目し、これを計算機モデルとしてFPGAに実装した。小脳は、脳内において知覚と運動機能の統合を行う機能を司り、音声の生成においては聴覚から得られる音声知覚情報を元に、発話器官の動作生成をおこなうための制御信号を作り出している。そこで、発話タイミングの認知と生成に着目し、小脳ネットワークの計算機モデルを構築した。本モデルは、人間の発話から、その発話速度発話長および各音素の発声タイミング、抑揚を認識し、ニューロネットワークの発火パターンからロボットの発話制御信号を自動生成するものである。人間との音声対話実験において、人の発話速度、抑揚を認識し、それに応じて適応的に同様の発話速度と発話長、抑揚を持つ音声を作り出すことが可能となった。更に脳内ネットワークの大規模化を進め、話者の個人性の表出や、声真似、多言語の特徴的音響の再現など、より高精度に人の発話を再現できることを確認した。また、発話障がい患者の音声特徴をロボットに再現させることにより、その原因を、構音動作と脳障害の両面から特定するためのロボットシミュレータの開発もおこなった。
|