高齢者が使いやすいヒューマン・マシン・インタフェース実現のために、音声認識技術が期待されている。しかし、高齢者音声は一般成人の音声よりも音声認識性能が大幅に低下してしまうという問題がある。本研究は、高齢者音声の認識性能を一般成人並みに改善することを目的として、高齢者音声の音響分析を行い、高齢者特有の音響的特徴を定量的に解析した。 本研究の主な成果として、高齢者音声の聴感的特徴である「めりはりの無さ」と「嗄れ声」に関して解析を行い、物理的な音響特徴との関係を明らかにした。 「声のめりはりの無さ」は、老化で調音器官の筋肉の動きが緩慢になり、声道が音素の調音形状に達しないうちに次の音素へ遷移するために生ずる現象である。音響的には音声波形の時間変化パターンとして表現される。我々は、前の音素から次の音素へ遷移する部分におけるスペクトルの時間変化率として遷移量を定量化し、聴感的なめりはり度合いと時間変化率の間に強い相関があることを示した。また、スペクトル遷移のかわりに単に音声パワーの時間変化率を用いてもほぼ同様の結果を得た。 「嗄れ声」は、声帯の劣化によって有声音に雑音が重畳する現象である。母音ごとに一般成人の平均スペクトルと高齢者の嗄れ声スペクトルを比較すると、全ての母音に対して嗄れ声の高齢者スペクトルは2.5kHz以上の成分が大きく、逆に1.5〜2.5kHzの成分が小さいことがわかった。この現象をスペクトルの傾きとして定量化し、聴感的嗄れ度合いとスペクトルの傾きの間に強い相関があることを示した。さらに高齢者スペクトルの傾きを一般成人のスペクトルの傾きに補正し、母音認識実験を行って、認識率の向上を確認した。これによって、高齢者音声の認識率低下の原因の1つが「しゃがれ」によるものであることが明らかになった。
|