2009 Fiscal Year Annual Research Report
語彙の確率的構造に基づく符号化による多選択肢タスク用音声認識の高精度化
Project/Area Number |
20500166
|
Research Institution | Hosei University |
Principal Investigator |
伊藤 克亘 Hosei University, 情報科学部, 教授 (30356472)
|
Keywords | 音声認識 / 話者識別 / ライフログ / 音声強調 |
Research Abstract |
語彙の確率的な構造を利用して実質的なエントロピーを下けることで高精度化を目指す音声認識を実現する新しい枠組みに取り組んでいる。今年度は、本枠組みが、テキスト独立型話者識別に応用できることを見出した。テキスト独立型話者識別では、学習用の音声データが、音素の種類・出現回数ともに非常に偏りがある。したがって、識別性能を高精度化するためには、音素ごとに、モデル形状やパラメータ数を適切に選択することが望ましい。この点について、情報源符号化手法を適用する。本年度は、独立型話者識別を評価するためのデータ整備とシステム基盤を構築した。現状では、数分程度の発話を学習データとして用いて、15%程度の誤り率を達成している。話者識別技術を評価するためのアプリケーションとして、音響ライフログをとりあげた。音響ライフログのアノテーションに話者識別を用いる。ライフログのような実世界データに対して、頑健な話者識別を行うためには、雑音抑圧や音声強調が必要となる。雑音抑圧・音声強調手法としては、スペクトル減算法および変調スペクトルフィルタリング法を検討した。古典的な手法ではあるが、日常生活での多くの雑音はスペクトル減算法でも効果があることがわかった。一方、放送コンテンツなどにおいては、変調スペクトルフィルタリングが効果的であることがわかった。今後は、適切なモデリングを行うことで、これらの応用において、雑音のない音声と同程度の15%程度の誤り率を達成することが目標である。
|
Research Products
(5 results)