人間が音声を聞き取り内容を理解する場合には、文のレベルで常に聞いているのではなく、音素、単語、フレーズ、文といった階層を選択していると考えられる。人間と機械の音声対話においても、文レベルで完全に解析するのではなく、解析できるところだけを解析して繋ぎ合わせ意味を補完する方法は、対話の文法が完全ではないので、有効でありかつ実現可能な方法と考えられる。解析可能な単位としては、単語、フレーズ、部分文を考えることができるが、本研究では、単語・フレーズに限定して連続音声からこれを抽出(スポッティング)し、対話音声を解析・認識することを目的としている。ワードスポッティングの技術は連続音声から既知語と未知語を判定しながら、既知語のみを抽出する技術である。既知語か未知語かを判定するには、既知語を構成している音素に関する情報、たとえば既知語の音素数や、音素の継続時間長から算出される単語継続時間長、単語尤度と音素系列の尤度比などが必要となる。本年度の研究では、単語スポッティングをする際に、どのような音素情報が利用可能かを明らかにし、既知語抽出精度の高い単語スポッティングの方法を見つけることを目的として研究を進めた。まず、単語スポッティングの従来手法である尤度比に基づく方法、事後確率に基づく方法、Nベスト法の手法について理論的に比較し、音素情報が単語スポッティングにどのように利用されているかについて論理的に分析した。次に、尤度に基づくスポッティングの方法として、音素認識と単語スポッティングを同時に実行し、音素情報を取り込むことによって、False Alarmを減少させる方法を実行した。また、事後確率に基づく方法として、前向き確率と後ろ向き確率より単語の存在確率を計算し、ローカルピークを検出して単語スポッティングを行う方法を実行した。
|