Research Abstract |
音声の音響事象から非言語的な特徴を表現する次元を消失させた音声の物理表象が提案されている(音声の音響的普遍構造)。これは,言語学(構造音韻論)の物理的実装として位置づけられるが,一つの発声に対してこの表象を応用した場合,それは,心理学的には音声ゲシュタルト,更に認知科学的には音声アフォーダンスとも解釈できる物理表象である。即ち,音声の物理を単音などのような細かい要素に分割して評価するのではなく,個々の要素が構成する系として捉える。この際抽出するのは,個々の要素の特性ではなく,要素間の関係だけを抽出する。その結果得られる表象は各要素間の相対的な関係だけとなり,系が物理空間中どこに存在するのか,という情報は一切捨て去る。物理空間内の絶対的位置を定めることが,話者の違い,音響環境の違いなどの不可避的な非言語情報を特定する操作となる。この新しい音声の物理表象は非言語的な情報に関しては不変であるが,種々のパラ言語情報によって変形されることが既に示されている。例えば,強勢母音群が成す構造のサイズは,弱勢母音群が成す構造よりも大きくなり,長母音構造は短母音構造よりも大きくなる。このようにパラ言語的側面によって構造が一部変化することを利用し,パラ言語情報の推定に構造情報を利用することを試みた。 演劇経験者より収集した種々の感情を込めた「あいうえお」音声をまず16種類に分類した。この場合,任意の二刺激間の主観的差異を測定し,全刺激間の距離行列を作成,ボトムアップクラスタリングを施すことで多種多様な感情を16種類に変換し,これを推定対象とした。次に,各感情の「あいうえお」発声に対して,従来より提案されている種々の音響特徴量を抽出すると共に,構造的表象に基づくパラメータを定義した。従来の特徴量と構造に関する特徴量とを組み合わせることの効果を実験的に検討した。その結果,構造情報と基本周波数に関する従来特徴量とを組み合わせることで,最大精度を得ることができ,本手法の妥当性を示すことができた。なお,検討している音声の構造的表象は上記した様に,音声の長さや強さの情報は間接的に表現される形態となっており(即ち音声の分節的特徴と一部の韻律的特徴を統合的に表現しうる新しい物理表象であり),基本周波数情報によってその効果が最大化する,というのは本表象の特性に合致した結果である。
|