脳性麻痺構音障がい者の音声コミュニケーションの実現を目指し,H24年度では,「ランダムプロジェクションを用いた構音障がい音声の認識および誤り単語検出」及び「非負値行列因子分解による構音障がい者の話者性を維持した声質変換」に関する研究を進めた. 1.ランダムプロジェクションを用いた構音障がい音声の認識 本研究では,アテトーゼ型の脳性麻痺による構音障がい者を対象とした音声認識の実現を目指している.彼らは意図的な動作時や緊張状態にある場合に筋肉の制御が難しくなり,アテトーゼと呼ばれる不随意運動を伴う.アテトーゼ型の構音障がい者の発話スタイルは健常者と大きく異なり,認識精度が著しく低下する.ランダムプロジェクションとは,空間写像の一手法で,その変換写像行列の各要素がある確率分布に従うランダムな値として定義される点に特徴を持つ.提案手法では,複数のランダム写像行列を用いて音声特徴量を変換した.各々の特徴量を用いて音声認識を行い,各認識結果を投票により統合することで最適な認識結果を得た.さらに,その投票結果に基づく正誤判定手法を提案した. 2.非負値行列因子分解による構音障がい者の声質変換 非負値行列因子分解を用いたExemplar-basedな声質変換を構音障がい者の発話に適用し,不安定な発話音声をより聞き取りやすく変換することを目指した.従来の統計モデルを用いた声質変換技術は,主として話者変換を目的としていたため,入力話者の声質は完全に別の話者の声質に変換されてしまう.本研究では,障がい者の母音と健常者の子音を組み合わせたCombined Dictionaryを用いることで,入力障がい者音声の話者性を維持しつつ,より聞き取りやすく変換することを可能にした.
|