Research Abstract |
話者認識における,長期的および短期的な発声の揺らぎを分析するための音声データベースの収集を引き続き行っている(平成14年12月〜).話者数は男女各2名で,1週間ごとに朝,昼,夕の1日3回,15分程度の時間に渡って発声した音声を収集している.発声内容は音素バランス文50文,4桁数字,単語等で毎回同一の内容を発声している.また,収録前に,体温,血圧,脈拍,体重,室温,湿度等も記録している.録音場所は,平成15年12月より本補助金で購入した組立型防音無響室内(暗騒音レベルは28dBA)であり,比較的良質な価値ある音声データが収集できている(ただし,80Hz以下の雑音の混入あり).データベース化に関しては平成17年3月までに,女性1名の1年分の音声,および男性話者1名の3ケ月分の音声を発声毎にファイリングした.また,データベース化の効率を上げるため,半自動で発声を分割するツールを作成し来年度より投入予定である. 作成した音声データベースの基礎的分析として,2次元可視化手法や時期・時間帯毎の音響モデルを用いた音素認識実験を行い,音声の話者内変動要因の調査を開始した.現在までに,学習データとテストデータの録音時期に1ケ月程度の間隔が開くことで認識率が低下することや,体調不良の場合に極端に認識率が低下することが明らかとなった. 一方,分散型話者認識方式として,Earth Mover's Distanceを用いたノンパラメトリックな話者識別手法を考案し,GMM(Gaussian Mixture Model)に比べ,圧縮データに対する高い頑健性を実現した.さらに,データを圧縮しない場合でも,従来法に比べ高い認識性能を達成しており,識別精度の面でも従来法を凌駕する手法であることを確認した.今後,処理の高速化や照合への適用方法を検討する.
|