研究概要 |
脳性麻痺構音障がい者の音声コミュニケーションの実現を目指し,1.構音障がい者の音素体系構築,2.顔方位にロバストな唇領域特徴と音声特徴の統合による構音障がい者の音声認識,3.ランダムプロジェクションを用いた音声特徴量抽出の研究などを行った. 1. 「PLSAによる構音障がい者の音素体系構築」 従来の構音障がい者の音声認識は健常者の音素体系を基に行われているが,両者の発声方法は異なり,音素体系が一致しない.そこで本研究では,PLSA(Probabilistic Latent Semantic Analysis)によって音素モデルを自動生成し,それによって音声認識を行う手法を検討した.発話が母音のみであれば,100%の正解精度で認識可能である事が示せた. 2. 「顔方位にロバストな唇領域特徴と音声特徴の統合による構音障がい者の音声認識」 アテトーゼ型の構音障がい者の場合,筋肉の緊張のため発話が不安定になりやすく,発話時に頭が動いてしまう場合がある.これに対して,音声特徴としてデルタケプストラム係数のセグメント特徴量を用いる.また,発話時の頭部の動きに対しては,Active Appearance Model(AAM)を用いることで画像から顔方位にロバストな唇領域特徴を抽出し,音声特徴と共に用いることで,雑音の影響を受けず発話変動を考慮したマルチモーダル音声認識手法を提案し,有効性を示した. 3. 「ランダムプロジェクションを用いた音声特徴量抽出」 複数のランダムマトリックスを用いて機械的に音声特徴量を変換し,各々のランダム写像に対する音声認識結果に投票を行い,最適な認識結果を求める手法を提案し,その有効性を示した.
|