2次元メルケプストラムの動的特徴とニュ-ラルネットを用いる単語音声認識
Project/Area Number |
02650243
|
Research Category |
Grant-in-Aid for General Scientific Research (C)
|
Allocation Type | Single-year Grants |
Research Field |
電子通信系統工学
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
北村 正 名古屋工業大学, 工学部, 助教授 (60114865)
|
Co-Investigator(Kenkyū-buntansha) |
山田 由之 名古屋工業大学, 工学部, 助手 (50024253)
早原 悦朗 名古屋工業大学, 工学部, 教授 (80024214)
|
Project Period (FY) |
1990
|
Project Status |
Completed (Fiscal Year 1990)
|
Budget Amount *help |
¥1,900,000 (Direct Cost: ¥1,900,000)
Fiscal Year 1990: ¥1,900,000 (Direct Cost: ¥1,900,000)
|
Keywords | 2次元メルケプストラム / ニュ-ラルネット / 単語音声認識 / 人間の聴覚特性 / メル周波数 / スペクトルの動的特徴 / バックブロパゲ-ション |
Research Abstract |
本研究では、音声の認識において重要な役割を果たしている音声のスペクトルの動的特徴を表すことのできる用いて単語音声認識の検討を行った。音声デ-タの学習および認識には、3層構造で学習がバックプロパゲ-ション法によるニュ-ラルネットを用いた。2次元メルケプストラムは分析区間内の音声のスペクトル包絡などの平均的な特徴を表す静的領域と,それらの変化分を表す動的領域にほぼ分割でき,スペクトルの変形にも強いことが明らかになってきた。そこでこれらの特徴領域をニュ-ラルネットにより更に検討し音声認識により有効な領域を活用するため以下のような検討を行った。 1.10数字音声による2次元メルケプストラムの特徴領域の検討:少語彙の特定話者,不特定話者の10数字単語音声認識により話者の正規化の問題を検討した。音声スペクトルの時間的に緩やかな動的特徴が有効であることを明らかにし,本方法によれば99.5%以上の認識率が得られることを報告した。 2.100単語音声認識による2次元メルケプストラムの特徴領域の検討:大語彙化への問題に対処するため,100単語での特定話者及び不特定話者の単語認識を検討し,1と同様に音声スペクトルの時間的に緩やかな動的特徴の有効性を確認した。本方法により特定話者の場合平均99%の認識率が得られることを報告した。 3.パソコン用ニュ-ラルコンピュ-タによる単語認識システムの構成:本研究はデ-タの分析はパソコンにより行ったが,大量のデ-タを高速に学習,認識するため,ニュ-ラルネット専用ボ-ドを購入し,パソコン制御による効率的なシステムを構成することができ,上記1,2の大部分は本システムで実行した。
|
Report
(1 results)
Research Products
(6 results)