研究概要 |
H15年度の研究を発展させるとともに、実環境での音声情報案内システム「たけまるくん」を運用し、音声データの収集およびデータベース化を進めるとともに、教師なし話者適応の研究、ハンズフリー音声認識の研究を行った。さらに、無音声認識、無音声電話などの静かな音声メディアの創成などを行った。 (1)雑音に頑健な音声認識アルゴリズムとHMM(隠れマルコフモデル)十分統計量に基づく教師なし話者適応アルゴリズムの研究開発を次の事項について進めた。 (i)音声情報案内システム「たけまるくん」により,20万発話以上の音声データの収集と書き起こしを行った.従来データが少なかった子供のデータが収集できた.子供の音声データを用いて,高精度子供音韻モデルの構築と,教師なし話者適応の効果を実証した. (ii)より広範な話者層として,高齢者と成人音声に対して話者適応アルゴリズムを改良した. (iii)教師なし話者適応プログラムの高速化プログラムを作成した.数秒で動作するオンライン話者適応プログラムパッケージの作成が可能であることが確認できた. (iv)音声認識エンジンJuliusの機能・性能強化(信頼度の改善,雑音モデルの導入)を行い、雑音モデルについては、音声情報案内システム「たけまるくん」に実装し、ユーザの利用頻度が明らかに向上した。 (2)マイクロフォンアレーによる音声収録技術として、コンパクトかつ廉価なマイクロフォンアレーアルゴリズムの開発を行っている。空間スペクトル減算アレーSSA(Spatial Subtraction Array)の研究開発を進め、従来法より大幅に高い認識性能を達成した。 (i)空間スペクトル演算アレーSSA(Spatial Subtraction Array)の音声認識性能評価・比較を,従来の遅延和型,Griffith-Jim適応型に対して行い,SSAの優位性を種々の雑音環境において確認した.さらにユーザ方位のずれに対する頑健化,実時間方位推定法の検討も行った. (ii)DSPによるSSAの実時間処理化に先立ち,通常のPCをベースにして実装検討を行った.想定される規模(4〜8素子アレー)において,実時間処理が可能であることを確認できた. (3)つぶやき声(NAM : Non-Audible Murmur)は,話し手の近くでも聞こえない声である.このNAMの音声認識(無音声認識)と,電話での伝送(無音声電話)の可能性を実証した.
|