研究課題/領域番号 |
14350204
|
研究機関 | 徳島大学 |
研究代表者 |
黒岩 眞吾 徳島大学, 工学部, 助教授 (20333510)
|
研究分担者 |
任 福継 徳島大学, 工学部, 教授 (20264947)
北 研二 徳島大学, 高度情報化基盤センター, 教授 (10243734)
柘植 覚 徳島大学, 工学部, 助手 (00325250)
|
キーワード | 話者認識 / 分散型音声認識 / 音声データベース / 判別分析 / 時期差 |
研究概要 |
話者認識における、長期的および短期的発声の揺らぎを分析するために音声データベースの収集を平成14年12月より開始した。話者数は男女各2名で、1週間ごとに朝、昼、夕の1日3回20分程度発声した音声を収集している。発声内容は音素バランス文50文、4桁数字、単語等で毎回同一の内容が10分程度、毎回異なる内容が10分程度である。また、収録前に体温、血圧、脈拍、体重、室温、外気温、湿度、喉の調子等も記録している。録音場所は本来であれば防音無響室が望ましいが、設備の都合上教室もしくは一般家庭内での録音となっている。本収集は平成16年度まで,継続する予定である。 分散処理に関してはETSI標準分散型音声認識フロントエンドに適用可能な入力系の周波数特性補償手法を検討し国内外の会議で発表を行った。現在同手法のリアルタイム性を高めるための検討を進めている。 話者照合用の音響分析手法としては特徴空間上で時期差による特徴変動が生じる軸を線形判別分析により推定し、デフレーションを行うことで、時期差に頑健な特徴空間を構成する手法の検討を続けている。同手法は特徴ベクトルの次元削減にも応用可能であり、分散型話者照合における情報圧縮に利用する検討も同時に進めている。 話者認識用デコーダに関しては、GMMによる方式(テキスト独立型話者認識)と音声認識を組み合わせた方式(テキスト指定型話者認識)の検討を進めている。音声認識を組み合わせた方式においては、分散環境での通信時にパケットロス等により情報欠落が生じた場合でも認識性能を劣化させない方式を検討した。現在までに、検討した手法を用いることで0.2秒程度のデータ消失に対しても認識率がほとんど劣化しないことシミュレーション実験により確認している。
|