Research Abstract |
音声が運ぶ情報は大きく,言語的情報,パラ言語的情報,非言語的情報に分かれる。我々は音声から非言語的情報に相当する音響特徴量のみを分離する方法を提案している。年齢・性別による音声の音響的変形,収録機器・伝送機器による音声の音響的変形はいずれも,静的な空間写像として数学的にモデル化できる。よって,写像不変量でもって音声を表象・モデル化することで,静的な変形(変換)に不変な音声情報処理が可能となる。我々は分布間の距離尺度であるf-divergenceが如何なる変換に対しても不変であることを証明しており,発声中の全ての音響事象を分布として捉え,任意の二分布間(事象間)距離を計測し,距離行列として音声を(話者不変的に)表象する手法を提案している。距離行列は一つの幾何学的形態を規定するため,これを音声の構造的表象と呼んでいる。本研究では,この構造表象を用いて外国語学習者の発音を表象することで,学習者の年齢・性別に影響を受けない発音表象が得られる。既にこの構造表象に基づいて英語・米語母音群を構造的に表象し,学習者毎に母音構造を取得し,それに基づいて発音習熟度の推定,発音診断を行う方法を検討してきた。本年度は,子音までを含めた構造表象を得ること,また,文音声からその文に対応する構造表象の抽出することを目的として,実験的検討を重ねてきた。 子音までを含めた構造表象の場合,話者による声の変形は母音と(無声)子音とは異なるため,これらの音群を分けて構造化するころが望ましい。また,一発声からの構造化は既に構造表象に基づく音声認識で検討していたが(MAP推定に基づくHMMパラメータ推定を通して行う構造化),これをそのまま利用するだけでは発音の差異を十分に反映した形での構造化は困難であることが示された。次年度以降,一発声からの構造化は異なる要素技術の開発が必要である。
|