研究概要 |
本研究では発声機能障害者のコミュニケーション障害を解決すべく,骨導などの体内伝導音を利用した発声支援システムを開発する.日本大学病院の協力を得て発声機能障害者の音声並びに体内伝導音を収録し,発声障害者音声データベースの構築に着手した.発声機能障害者はその手術形式により,多様であった.つまり,食道発声のみではなく,音声再建法など特殊な音声獲得方法もあり,そのような発声方式についても提案手法が対応可能であるかを調査した.まず,障害者音声における体内伝導音連続音節認識システムの構築については,連続サブワード認識を行い,認識状況を調査した.その結果,体内伝導認識率は健常者の半分となり,適応処理が必要であることを確認した.適応処理により認識率は向上したため,特定話者体内伝導音認識モデルは新たに作成する必要はないこともわかった.発声機能障害者の音声特徴量を解析したところ,症状が深刻になるにつれてパワーが弱くなり,音声認識特徴量であるメルケプストラム値も大きくずれていくことを確認した.次に,各サブワードモデルでの伝達関数の推定を行った.これには発声機能障害者の喉頭摘出前のビデオ音声を利用した.サブワード認識による区間推定誤差回避のため,今回は手作業により区間推定を行った.このため,この作業にかなりの時間を要した.ある程度,サブワード伝達関数データベースが構築できたところでシステムを稼働させ,その有効性を確認した.時間周波数平面上で評価をすると高域成分が回復し,障害音声に比べ,品質が向上したように観測できたが,実際に受聴すると,障害前の音声にまでは達していない.このため,音声認識特徴量的には性能向上が認められるものの,実際の受聴効果を高めるためにさらなる工夫が必要であることが明らかになった.しかし,問題点も明らかになったため,今後は音声品質をさらに向上させた実用システムを構築することを検討する.
|