研究実績の概要 |
大語彙連続音声認識の高精度化を実現する方法として,リランキング処理がある。これは,音声認識結果を複数仮説として出力し,それを再評価する(リランキングする)ことで,高精度化を図るものである。音声認識処理においては利用が困難である特徴量や情報を用いて,後処理としてリランキングすることが多い。本研究では,この処理の中に,韻律的妥当性,より具体的には,アクセント的妥当性(仮説より想定されるアクセント核位置と,実際の音声信号から推定されるアクセント核位置の整合性)を導入することを目的としていた。しかしながら,連続音声からのアクセント核位置推定を十分な精度で実現することができず,上記そのものの実装は諦めざるをえなかった。その一方で,韻律的特徴と解釈できる分節的特徴(音色に基づく音声のメロディー,"Holistic and prosodic representation of the segmental aspect of speech," Speech Prosody 2008, "Speech as timbre-based melody -- What in parants' voices do infants imitate acoustically? --," Int. Conf. Language, Music, and the Mind)である,音声の構造的表象を用いたリランキングについても一連の検討を継続していた。こちらの方法論については一定の成果を出すことができ,DNN 音声認識をベースラインとした場合でも精度向上を確認できた。その成果は,top journal の一つである speech communication 誌にて発表することができた。
|