自由発話理解のための数学モデルの研究

研究課題

研究課題/領域番号	09740161
研究種目	奨励研究(A)
配分区分	補助金
研究分野	数学一般(含確率論・統計数学)
研究機関	慶応義塾大学
研究代表者	斎藤博昭慶應義塾大学, 理工学部, 専任講師 (30235064)
研究期間 (年度)	1997 – 1998
研究課題ステータス	完了 (1998年度)
配分額 *注記	2,000千円 (直接経費: 2,000千円) 1998年度: 900千円 (直接経費: 900千円) 1997年度: 1,100千円 (直接経費: 1,100千円)
キーワード	音声合成 / 自由発話 / 韻律 / 感性情報処理 / 自然言語処理 / 文脈自由文法 / 音声理解
研究概要	近年、音声認識/合成の分野では“より自由な発声"を扱うようになってきた。自由発話での大きな特徴として、話者の感情が込められることが挙げられる。今年度は、基本6感情から「恐怖」を除く「怒り」「驚き」「悲しみ」「嫌悪」「喜び」を取り上げ、その表現を制御する要因として話すテンポ、声の高さ、声の大きさに注目した。各々に対応する音響量は、発話速度、基本周波数(ピッチ)、振幅値となり、これを感情を表す特徴量とした。韻律モデルとしては、従来から用いられてきた藤崎モデルを採用した。まず、5つの各感情をよく表すように藤崎モデルのパラメータを決定した。次にこのパラメータが妥当なものかどうかを、実際に音声を合成出力して検証した。音声合成システムは、音素を合成単位とした、波形合成方式を採用した。保存データは、音素の波形データそのものではなく、波形の特徴となる局所的なピークを制御点としたデータを、各音素について作成し、合成に用いる。合成の際には、ピッチ周期にあわせて、制御点を時間軸上に配置し、それを余弦関数による補間を行うことにより、音声波形を生成する。データとして持っているのは各音素のデータだけであり、音素間のわたりの部分の波形には、その両端の音声データから制御点の移動により得られる中間波形を用いる。決定したパラメータから合成された単語音声から、各感情を知覚できるかを実験した。結果として、「怒り」「嫌悪」「悲しみ」については85%以上の高い正反応率が得られ、合成に用いたパラメータ値が妥当なものであることが裏付けられた。一方「喜び」と「驚き」については、韻律だけからその2つを区別することが困難であるどの仮説を得ることができた。