研究概要 |
本研究はコンピュータシミュレーションのみでは解明困難な人間の発話運動について,物理モデルとしての人間形発話ロボットを構築することによりその解明への糸口を見つけることを目的としている. 今年度は既存の発話ロボットWT-6の問題を解決し,多様な音声生成を実現するために,舌機構部および声帯機構部の改良を行ない,全19自由度を有する新型発話ロボットWT-7 (Waseda Talker No.7)の製作を行なった.まず,声帯においては人間の生理学的構造を模擬した声帯モデルでのピッチレンジの狭さを解決するために,より大きなテンションを与える内転機構を用いることで,声帯のピッチレンジが150[Hz]程度に改善され,人間の通常発話時のピッチ変化を再現することが可能になった.さらに,音声の多様性を再現するために,音圧,スペクトル傾斜といった音響特徴量を任意に変更可能な駆動機構を構築した.舌機構部においてはWT-6の機構で問題であった再現性,目標追従性の低さを解決するために舌内部に4組のリンク機構を搭載し,舌の外形および中央部の溝を再現可能な機構を設計・製作した. これらと同時に制御の面で多様な音質を再現可能とするために,音響特徴量を目標値に追従可能となるようなソフトウェアの開発を行なった.これらのパラメータは調整可能であるが相互に影響を与えてしまうため,以下のような順逆モデリングの手法を用いた.まず,声門伸張量,声門開閉量,呼気流量を変化した時の音をサンプリングし,音響特徴量であるピッチ,音圧,スペクトル傾斜を抽出する.それらを訓練データとして,ロボットの順モデルをニューラルネットにより同定し,その後,学習した順モデルを逆モデルの出力誤差推定に利用し,逆モデルを同定した.この機構に加えて実時間聴覚フィードバック機構を用いることで,外乱やモデル化誤差といった現実問題に対応した.
|