擬人化エージェントを介して、ネットワーク上のサイバースペース内で、フェーストゥーフェースの対話を実現する多人数コミュニケーションシステムのプロトタイプを完成させた。これは、イーサネットに接続された複数のクライアントと、1台のサーバから構成され、各クライアントには、マイクロフォンとビデオカメラが設置されている。マイクから入力された声は逐次サーバに転送され、ニューラルネットによるパラメータ変換メカニズムによってリアルタイムで口形状への変換が実行される。この口形状パラメータは、各クライアントに送られて、相手から見える本人の擬人化エージェントの表情制御に用いられる。また、音声信号はそのままクライアントに送られて、表情とともにスピーカーから再生される。ファンクションキーに割り当てられている基本表情を選択することによって、相手に提示する表情を変化させることができる。また、仮想空間内をフォークスルーして、擬人化エージェントの位置と視線方向を制御することが可能であるが、エージェントの視線から見た映像の他に、第三者的な視点からシーンの全体像を把握できるようにフライモードを用意している。擬人化エージェントの視線の制御は画面に写るシーンと一致するようになっているので、相手のエージェントとアイコンタクトを取りながら対話することが可能となった。 このプロトタイプシステムを利用して、3人のクライアント間でコミュニケーション実験を行った。合成レートはおよそ10フレーム毎秒であり、伝送される音声のクオリティの劣化、さらに伝送遅延による唇の動きとの非同期が生じたが、実際にこのシステムによって、複数の人間の間でネットワークを介して、自然な会話が行えることを評価実験により明らかにした。
|