当初の期間よりも順調に検討が進み,新たに音声認識から骨伝導音の認識システムを構築するための検討が進んだ.一般的に音声認識はマイクロフォンから採取した波形情報から音響特徴量への変換したパターンマッチングを行う.音声認識では音声から求めた音響特徴量の統計量としての正規分布の平均値及び分散で分布をモデル化する.しかしながら,音声と骨伝導音ではモデルのパラメータが異なるから,音声用の分布から骨伝導音用の分布を再推定する必要がある.そこで,音声用のパラメータを初期モデルとし,骨伝導音用のパラメータを用いてモデルの再推定を行った.モデルの再推定は事後確率最大化法(MAP)で行った.MAP法は音声認識における一般的な方法であり,本方法での有効性を確認することで音声認識から骨伝導音認識システムの構築の実現が確認できる.MAP法ではモデル再推定を行う際に,音響モデルであるHMMの連結学習の回数がモデルの性能を左右する.ここでは,過学習を考慮して数回程度の連結学習を行うものとした.ベースラインは不特定話者用の音声認識システムに対する骨伝導音認識で約60%程度の認識性能であった.一方で,骨伝導音を用いたパラメータの再推定を行い骨伝導認識システムを構築し,約90%以上の認識性能が得られることを確認した.以上の結果より,本年度では音声用の音響モデルに対して骨伝導音を学習することでパラメータの高精度化が達成され,認識性能の改善が確認できたといえる.
|