今年度は、大容量ディスク装置を始めとする研究用機材の整備を重点的に行った。本研究のテストベッドとなるロボットは、和歌山大学石黒教授開発のReplieというヒューマノイドを使用する予定であり、耳の設計や機材の検討を行ったが、完成が間に合わなかった。Replieの代替として科学技術振興事業団北野共生システムプロジェクトの上半身ヒューマノイドSIGを使用した。主な研究項目は以下の通りである。 1.聴覚的中心窩-混合音から音声分離を行う方向通過型フィルタの方向依存性を評価した結果、正面方向と真横方向とでは4倍以上の精度の違いがあることが判明した。この現象は、人間の視覚で中心の解像度が高く、周辺は解像度が劣るという中心窩(fovea)に相当しており、『聴覚的中心窩(auditory fovea)』と名付けた。話者や音源に正対して聞く機能を実現するために、聴覚的中心窩を積極的に活用した注意制御システムをロボットに実装中である。 2.話者識別・検証と顔識別・検証の相互作用-顔識別の結果から話者検証を行い、逆に、話者識別の結果から顔検証を行うという情報統合のためのアーキテクチャを検討した。ただし、話者識別・検証の性能が顔識別・検証のそれよりも相当悪いので、両者の統合による効果が得られていない。 3.混合音からの音声分離と話者識別・音声認識-現在、混合音から抽出した音声に対して、話者識別と音声認識の予備実験を行っているが、使用している話者識別システム(Juno)と音声認識システム(Julian/Julius)単体の性能が悪いことが判明した。このため、音声認識システムについては、音響モデルを構築するために、できるだけ雑音の少ないデータの収録と収録データから分離した音声の人手によるラベル付けを行っている。また、Junoについては、詳細な性能評価を行い、機能が不足している部分の洗い出しを行い、使用機材のためのパラメータ設定のチューニングを進めている。
|