Budget Amount *help |
¥1,900,000 (Direct Cost: ¥1,900,000)
Fiscal Year 1990: ¥1,900,000 (Direct Cost: ¥1,900,000)
|
Research Abstract |
本研究では、音声の認識において重要な役割を果たしている音声のスペクトルの動的特徴を表すことのできる用いて単語音声認識の検討を行った。音声デ-タの学習および認識には、3層構造で学習がバックプロパゲ-ション法によるニュ-ラルネットを用いた。2次元メルケプストラムは分析区間内の音声のスペクトル包絡などの平均的な特徴を表す静的領域と,それらの変化分を表す動的領域にほぼ分割でき,スペクトルの変形にも強いことが明らかになってきた。そこでこれらの特徴領域をニュ-ラルネットにより更に検討し音声認識により有効な領域を活用するため以下のような検討を行った。 1.10数字音声による2次元メルケプストラムの特徴領域の検討:少語彙の特定話者,不特定話者の10数字単語音声認識により話者の正規化の問題を検討した。音声スペクトルの時間的に緩やかな動的特徴が有効であることを明らかにし,本方法によれば99.5%以上の認識率が得られることを報告した。 2.100単語音声認識による2次元メルケプストラムの特徴領域の検討:大語彙化への問題に対処するため,100単語での特定話者及び不特定話者の単語認識を検討し,1と同様に音声スペクトルの時間的に緩やかな動的特徴の有効性を確認した。本方法により特定話者の場合平均99%の認識率が得られることを報告した。 3.パソコン用ニュ-ラルコンピュ-タによる単語認識システムの構成:本研究はデ-タの分析はパソコンにより行ったが,大量のデ-タを高速に学習,認識するため,ニュ-ラルネット専用ボ-ドを購入し,パソコン制御による効率的なシステムを構成することができ,上記1,2の大部分は本システムで実行した。
|