研究概要 |
音声を文字化(音韻列化)する音声認識技術において「音韻は韻律的特徴と独立である」との理由から,韻律的特徴を排除して得られる音韻的特徴(スペクトル包絡)を特徴量として用いることが常 套手段となっている。しかし,音声を単語列・句列・文列と考えれば,時間的に音韻を超えて存在す る韻律的特徴が存在することは自明である。また多くの知覚実験は韻律による円滑な(人間による) 音声情報処理過程の存在を示している。にも拘わらず韻律を排除して技術構築されてきた理由は,韻律の多様性に対処できる技術が未熟であったことに因る。本研究では語彙レベルの韻律に焦点を当て, 申請者が構築した韻律的情報の高精度予測技術を大語彙連続音声認識に適用し,その高精度化を狙う。本年度は,1)ベースラインとなるDeep Neural Networkによる音声認識の高精度化,2)任意のテキストを対象としたアクセント句境界位置,アクセント核位置推定の高精度化,を検討した。また,読み上げ音声を対象としたアクセント核位置推定技術は,自然音声ではその精度が予想以上に下落することも知見として得られた。
|