研究概要 |
研究目的は,ヒューマノイドロボットが,音声を実環境下で高精度に認識するための身体制御方法である.21年度計画は,「要素技術開発」であった.ヒューマノイドロボットHRP-2に8本のECMマイクロフォンを搭載し,音源定位・音源分離・分離音声認識を行うシステムを実装し,研究基盤となる要素技術の洗練化を行った.得に「音源分離性能の改善」と「分離音声に残された歪を含む音響特徴量の信頼度計算手法確立」を行った. 音源分離は,マイクロフォンで受音した信号から,混合前の音声を推定する不良設定問題である.混合前の音声の推定精度は,分離行列推定精度の影響を大きく受ける.オンラインでの音源分離は,分離行列を高速に推定する必要がある.21年度の研究成果は,この分離行列の高速推定である,分離行列をオンラインで適応的に求める手法を改善した.具体的には,「分離行列の初期値を与える手法を導入」した点と,「適切な初期値を求める手法」を導入した点である.これにより,分離行列の収束速度が改善し,音源分離精度が向上した,それに伴い,移動音源に対する分離性能の向上も期待できる. 音響特徴量の信頼度は,歪んだ音声の認識誤りを軽減する目的で用いる,音声収録時に,目的音声の特徴量をロボット動作音(ノイズ)が覆い隠す歪が問題である.信頼度の高い部分に重点を置いた音声認識(ミッシングフィーチャ理論に基づく音声認識)を行う.高い認識精度を得るためには,信頼度計算が重要である.従来,信頼度は0または1を用いることが多かったが,0から1の連続値を信頼度として用いる方法を採用し,信頼度を自動生成するモデルを構築した.本手法による音声認識システムで,ロボット動作音により歪んだ音響特徴量を認識すると,ロボット動作中の音声認識精度が改善すると期待できる. 移動音源の定位・分離,および,ロボット動作中の音声認識は,今後の課題である.
|