2000 Fiscal Year Annual Research Report
人工蝸牛のディジタル化と実時間音声認識/話者認識システムへの応用
Project/Area Number |
12650397
|
Research Institution | Tokyo University of Science |
Principal Investigator |
半谷 精一郎 東京理科大学, 工学部, 助教授 (70147510)
|
Co-Investigator(Kenkyū-buntansha) |
浜本 隆之 東京理科大学, 工学部, 講師 (10297624)
|
Keywords | DSP / 人工蝸牛 / ディジタル蝸牛 / 音声認識 / 話者認識 |
Research Abstract |
ディジタル人工蝸牛モデルと、それを用いた音声認識の方式の検討を中心に以下の項目の検討を行なった。 ・ディジタル人工蝸牛モデルの検討 ディジタル蝸牛モデルをカスケードに接続した進行波フィルタと、各段の出力に接続した速度変換フィルタおよびセカンドフィルタにより構成した。周波数が32Hzから20kHzまでの21段からなる人工蝸牛フィルタを作成した。その内、マイクロフォンの低音集音性能限界70Hzや処理量、回路規模を考慮し、75Hzから7.5kHzまでの16段のフィルタをDSPへ実装することとした。なお、音声のサンプリングレートは16kHzとした。 ・ディジタル人工蝸牛フィルタを用いた音声認識アルゴリズムの検討 16段のディジタル蝸牛フィルタを用いて、単語音声認識のシミュレーション実験を行った。ディジタル蝸牛 フィルタで得られる3次元パターンに対し時間方向に線形伸縮を施し、さらに電力方向に正規化を行った。5回発声したパターンの平均をリファレンスとし、音声50単語に対して実験を行った。無雑音下で特定話者3名の平均認識率は98.6%となり、十分な認識率を得ることができた。 ・ディジタル人工蝸牛フィルタの段数による音声認識率への影響の検討 60人の話者において、ディジタル蝸牛フィルタの段数の増減による音声認識率の変化を調査した。ここでは、無雑音下で87段から3段まで変化させて実験を行った。87段で94.78%、16段で93.12%、3段で79.92%となり、87段から14段程度まで認識率は大きく低下しないことが分かった。 ・ディジタル人工蝸牛フィルタのDSPへの実装の基礎検討 DSPボード2個を用いて、各段のディジタル蝸牛モデルを実装することにした。各段の進行波フィルタの処理に1個割り当で、速度変換フィルタとセカンドフィルタに1個割り当てる。1段に相当するフィルタ特性をDSPボードに実装し、その振幅を調査したところ所望の特性を得ることができた。
|
Research Products
(2 results)
-
[Publications] M.Xamiki: "Spoken Word Recognition with Digital Cochlea using 32 DSP-boards"Proc.of IEEE ICASSP. (発表予定). (2001)
-
[Publications] 並木将央: "DSPによるディジタル蝸牛の実装化と音声認識への応用"2000電子情報通信学会ソサイエティ大会. D-14-8. (2000)