Research Abstract |
最尤基準により、分散して格納された音声波形(音声パラメータ)を利用して、音響モデルを学習するシステムを作成した.分散学習拠点毎に収録された音声に,共通の処理(音素ラベル付与など)を行い,共通のフォーマットで話者・環境情報を記述するとともに,定めたディレクトリ構造に従って関連ファイルを格納することで,分散データベースを構築する.分散学習拠点には,HMM音響モデルの学習(具体的には,前向き確率の計算を実行し,状態毎の統計量を算出する.)に利用可能な計算サーバも用意した.ユーザは,1)利用を希望する音声データの属性を指定することで,学習に利用可能な音声データのリストを得ることができ,2)学習するHMMの属性(初期モデル)をアップロードすることで,選択したデータを用いてHMMの学習を実行することができる.すなわち,本システムを利用することで,直接音声データを授受することなく分散した音声データを用いて多様な音響モデルの構築を行うことができる.センターは,分散学習拠点でローカルに計算された統計量を統合してHMMパラメータの最尤推定を行い,その結果を保持するとともに,推定されたパラメータを,更新された初期HMMとして分散学習拠点に送り返す.現在までに,名古屋大学,奈良先端大,ASTEMの3つの分散学習拠点が,名古屋大学に設置されたセンターシステムの管理下で動作しており,(車内音声対話、子供の声、公共施設案内対話音声、新聞読み上げ音声、など,延べ17万発話を学習に利用することが可能となった.
|