本研究では、人間の発声器官である肺、気道、声帯、声道、鼻腔、舌とそれらを動かす為の筋肉などを全て機械系により再現し、自律的な発話動作によって音声を生成する発話ロボットを構築した。エアーポンプから送られる空気流が人工声帯を振動させる事で、音源波が生成される。発話ロボットは、共鳴管の声道断面形状を9個のモータにより変形させ、任意の共鳴特性を付加することによって音声を生成する。声道物理モデルの制御パラメータと、生成される音響パラメータとの対応付けを、聴覚フィードバックによる自律学習によって適応的に獲得させることにより、人間と同様な発話動作を再現することを可能とした。 日本語5母音の発話手法を獲得するための学習に、自己組織化ニューラルネットワークとその強化学習を応用した。これは、入力層、競合層、中間層と出力層の4層から構成され、各層間は重み係数を持つ結線により全結合している。入力層から競合層を自己組織化学習により、また競合層から出力層を誤差逆伝搬法による3層パーセプトロン学習を用いて、音声特徴量とモータ制御量との対応付けをおこなった。 本ロボットにより、音声の特徴から、その音声を生成するのに必要な口内の発話動作が再現できることが確認できた。聴覚障碍者や発話障碍者が、見本となる構音動作や口内の動きを見ながら、対話的に発話訓練をすることができるシステムの構築をおこなった。ここではまず、男性2名、女性1名の計3名の聴覚障碍者に日本語5母音を発音してもらい、SOM上へマッピングを試みた。実験の結果、障碍者音声は「い」〜「お」の4音素で、健常者音声の特徴点とは違うところにマッピングされた。聴覚障碍者が発話訓練を行う際、ロボットの発話動作と特徴マップを視覚的に確認しながら対話的に発話をおこない、発声した音の特徴を健常者の領域に近づけていくことで、発話訓練装置に利用できることを実証した。
|