2004 Fiscal Year Annual Research Report
Project/Area Number |
15700163
|
Research Institution | The University of Tokushima |
Principal Investigator |
柘植 覚 徳島大学, 工学部, 助手 (00325250)
|
Keywords | 音声認識 / 長短期間の音声変動 / 分散型音声認識 / 分散型話者認識 / Earth Mover's Distance |
Research Abstract |
本年度は「低認識精度発声」に関する研究の前段階として、分散型音声認識における音声認識精度の変化とその問題点に関して調査研究を進めた。また、それと並行し低認識精度発声を確認するため話者認識手法の検討も行った。また、音声収集を行ってきた特定話者の大規模音声データをデータベースとして使用できるように加工を施し、最終年度に向けた予備実験を行った。 本年殿知見では、分散型音声認識における入力系の周波数特性の差異は音声認識精度に影響を与え、低認識精度発声を生み出す原因の一つとなることがわかった。そこで、本年度では実用化も見据えた分散型音声認識のための入力形の周波数特性正規化手法を提案し、その有効性を実験により検証した。また、話者認識においても話者認識が困難な発声があることがわかり、音声の変動を明確に捉える必要がさらにあることがわかった。 また、特定話者の大規模データベースを用いた特定話者の音素認識実験を行った。その実験結果より、音響モデル学習データと評価データ間に発声時期の差が生じた場合には音声認識精度が低下する傾向があることがわかった。しかし、それがまだどのような音響的特徴のゆらぎによって引き起こされているかは解明ができていないため、その点は来年度に向けての課題である。また、身体的特徴で風邪をひいている時には音声特徴量が極端に変動し大きく認識精度を低下させることがわかった。 本年度の知見を受け、来年度はさらなる詳細な分析を行い、低認識精度発声の解明や認識精度向上のための新しい手法の考案を行っていく予定である。
|
Research Products
(6 results)