本研究は、高齢者用の音声認識インタフェースを実現するための要素技術研究であり、高齢者音声の音響的特徴を明らかにすることが目的である。平成21年度は主に以下の項目の研究を行った。 1. 高齢者音声の音響的特徴の抽出 平成20年度の研究により、高齢者音声の聴覚的特徴は「しゃがれ」「メリハリの無さ」「発声の遅さ」であることがわかった。当年度は、各聴覚的特徴に対応する音響的特徴を抽出した。 (1) しゃがれた音声は、周波数スペクトルの4kHz以上の成分が大きい。したがって、全スペクトルパワーに対する4kHz以上のパワーで、しゃがれ度を定量化できる。また、ガラガラ声はスペクトルの時間軸上での微細変動によって生ずる。これは、変動量を表現するSpectrum PQで定量化できる (2) 音声は音韻が時間的に結合しているものとみなせるが、調音器官の衰退によって各音韻の発声があいまいになるとメリハリの無い声になる。メリハリ度を表現する音響物理量として隣接音韻間の「スペクトル遷移量」と「スペクトル遷移速度」を提案した。そして、「スペクトル遷移量」はメリハリ度と関係があり、「スペクトル遷移速度」はメリハリ度および年齢と相関があることを示した。 (3) 1秒間に発声するモーラ(音節)数であるmora/secによって、発声速度が表現できる。高齢化と共にmora/secは減少する。そして、各音韻の持続時間のバランスが崩れ、これが「たどたどしい」聴感印象につながる。高齢者はゆっくり発声することによって、メリハリ度を改善している。 2. 評価システム 上記1.で抽出した音響物理量によって高齢者音声を補正し、音素認識評価を行ったところ、高齢者音声の認識率が向上した。また、高齢者音声の補正により、聞きやすさが改善することを確認した。
|