研究概要 |
本研究では,通信路上で欠落信号を知的信号処理により復元するための手法に関する研究を進めている。 (1)繰り返し発声の統合手法の研究 パケットロスが生じた回線においても,同一話者が「く_いわ,くろ_わ,_ろいわ」(_がパケットロスし失われた音節と課程)と繰り返し発声を用いれば,正しい情報を再現できる可能性は高い。そこで,音声認識を利用することで時間軸の非線形伸縮を行うと共に,音源分離を行い,スペクトル上で音声を統合し頑健な音声認識を開発した。簡易防音室で収集した10名の音声データを用い、予備実験の結果、2回の繰り返し発声を用いることで、誤り率を4分の1程度まで削減できることを確認した。現在、残された課題である繰り返し発声の検出法を中心に研究を進めている。 (2)音声の広帯域化手法の研究 帯域制限された音声を音声認識することで、音素状態を推定し,さらに推定された音素状態から高域の音声のスペクトル包絡を推定する手法を構築した。現在までに、客観評価実験では音質の向上が確認されたが、主観評価実験では満足な結果を得るに至っていない。現在、音源情報の広帯域が鍵となると考え研究を進めている。 (3)音声の話者内変動の調査 音声欠落部に合成音声を補間した場合の違和感を低減させる研究の一環として,同一話者の同一音素の音声がスペクトル上でどの程度ばらつくかを調査した。その結果、音素により変動に違いがあることが明らかとなった。しかし、その変動の規則性を特定するには至っておらず、引き続き調査を進めている。一方、話者間の特徴の違いも音素毎に異なることから、音素もしくは音響的な部分空間に依存した話者性抽出法の検討を開始した。
|