研究概要 |
発話に障害を持つ人の音声認識を実現するために,その音声の特徴を調べ,正常に発話された音声との比較を行った.これは,発話に障害を持つ人は,全ての音素を発声できることが期待できず,発話に障害を持たない人に比べ発声される音素の数が少なくなり,また,音素自体が変化することに加え,音素の分類においては,各々の音素の特徴に大きな違いが生じにくいと考えられるからである. 音声の特徴の比較については,発話に障害を持つ人の音声をディジタル化し音声データとして蓄積した.また,正常に発話された音声データベースより比較のための音声データを抽出した.蓄積した音声データから本研究で作成した音声の特徴を正確に抽出可能なディジタル音声信号解析処理装置を使って音声の特徴解析を行った.解析は,音声のスペクトル構造とその時間変化を詳しく調査し比較している.特に,障害のある発話音声と正常な発話音声で同じような"聴こえ"に対する音声部分を使用して重点的に行った.この解析の結果,正常に発話された音声の母音部には明確なフォルマントの構造が見られるのに対し,障害のある音声には明確なフォルマント構造が見られない,あるいは大きく異なったフォルマント的な構造を持つことが明らかになった.また,このスペクトルの構造は,発話者が異なるとその特徴も大きく異なった. 以上の結果を踏まえ,音声認識の予備実験を行った.従来から用意してある正常な発話の音声のための音声認識システムを用いた音声認識実験では,正常な発話に対しては十分に高い認識率が得られるが,障害のある発話音声に対しては,十分と言えない認識率となった.これは,認識のための学習データが十分ではないためと考えられる.また,異なる発話者に対しては,再度学習する必要があった.この結果より,少ない学習で高い認識率を得る手法を構築し,この問題に対応する必要があると言う結論となった.
|