日常環境で音声入力の開始・終了を意識せずに誰でも自然に使うことができる音声インタフェースの実現を目指して、音響・言語情報を密に統合したロバストかつ実時間の音声区間検出の研究を行った。短時間フレームごとのGMM尤度を用いた音声区間検出、およびフレーム単位の部分的な照合スコアから認識処理の照合度(信頼度)を判定する手法を提案した。大学案内音声対話システムを実際に構築して公共の場に設置し,データ収集と評価を行った。本研究の成果の一部は、大語彙音声認識エンジンJulius の機能として一般に公開されている。
|