研究概要 |
話者認識における,長期的および短期的な発声の揺らぎを分析するための音声データベースの収集を引き続き行っている(平成14年12月〜).話者数は男女各2名で,1週間ごとに朝,昼,夕の1日3回,15分程度の時間に渡って発声した音声を収集している.発声内容は音素バランス文50文,4桁数字,単語等で毎回同一の内容を発声している.また,収録前に,体温,血圧,脈拍,体重,室温,湿度等も記録している.録音場所は,平成15年12月より本補助金で購入した組立型防音無響室内(暗騒音レベルは28dBA)であり,比較的良質な価値ある音声データが収集できている(ただし,80Hz以下の雑音の混入あり).データベース化に関しては平成15年12月までの女性1名の音声のみが発声毎にファイリングできている.現在,データベース化の効率を上げるため,半自動で発声を分割する手法について検討を進めている. 作成した音声データベースの基礎的分析として,5母音のデータを用い,発声時刻や時期,その他各種情報とピッチおよびスペクトル情報との相関を調査したが,現在までに有意な結果を得るに至っていない.今後,ケプストラム空間上での相対的な位置関係,発声速度や音素継続時間長との関係等,さらなる調査を行い発声揺らぎの原因を追求する. 一方,話者照合用音響分析手法として,上記データベースから時期差にかかわる特徴をセグメント量子化および判別分析により抽出し,さらに判別面へ特徴ベクトルを射影することによる時期差に頑健なパラメータ抽出法を検討した. 圧縮方式に関しては,同一のビットレートに圧縮する場合でも,端末での分析帯域幅を広げることにより話者認識性能を向上できることを明らかにした.さらに,ノンパラメトリックな話者認識手法を考案し,ベクトル量子化が標準となる分散環境で,GMM等のパラメトリックな手法に比べ高い話者認識性能を達成した.
|