2012 Fiscal Year Annual Research Report
Project/Area Number |
23650072
|
Research Institution | Osaka Institute of Technology |
Principal Investigator |
鈴木 基之 大阪工業大学, 情報科学部, 准教授 (30282015)
|
Keywords | 話者識別 / ML-BEATS法 |
Research Abstract |
本研究の目的は,音声符号化用に開発されたセグメント量子化法であるML-BEATS法を他分野に適用し,その有効性を探ることである。具体的には,1. ML-BEATS 法の高速化とプログラムの整備,2. 時間的遷移を考慮した話者識別用話者モデルの構築,3. 音声認識・音声合成に基づく超低ビットレート音声符号化,の3点について研究を行い,ML-BEATS法の時系列解析法としての可能性を探った。 特に最終年度は,時間的遷移を考慮した話者識別用話者モデルの構築について検討を行なった。ML-BEATS法の高速化アルゴリズムの開発が遅れてしまったことから,当初予定していた時間的遷移を考慮した話者モデルの構築を行うことはできなかったが,ML-BEATS法の考え方を取り込んだクラスタリングに基づくGMM学習法による話者モデルの構築法を提案し,その性能を評価した。 話者モデルとして通常よく用いられているGMMの学習において,最尤推定を行うのではなく,各正規分布を特定の発話と明示的に対応づけることで過学習を回避するアルゴリズムを提案した。登録話者として男女100名ずつの200名を用いた話者識別実験を行なったところ,混合数が少ない時(16混合程度まで)は,どの方法もほとんど差がなかったが,32混合以上では,従来法と比較して,過学習による性能低下の割合が一番低く,最もよい性能を示示すことがわかった。これはクラスタリングを用いることで,個々の正規分布が学習サンプルと明示的に対応づけられ,過学習の影響が少なくなったためと思われる。 一方,音声認識・音声合成に基づく超低ビットレート音声符号化法の開発については,ML-BEATS法の実装が完成しなかったことから,研究期間内に大規模な性能評価実験を行うことができなかった。この点については,研究期間終了後も引き続き検討を行っていく予定である。
|
Research Products
(2 results)