研究課題/領域番号 |
09740161
|
研究種目 |
奨励研究(A)
|
配分区分 | 補助金 |
研究分野 |
数学一般(含確率論・統計数学)
|
研究機関 | 慶応義塾大学 |
研究代表者 |
斎藤 博昭 慶應義塾大学, 理工学部, 専任講師 (30235064)
|
研究期間 (年度) |
1997 – 1998
|
研究課題ステータス |
完了 (1998年度)
|
配分額 *注記 |
2,000千円 (直接経費: 2,000千円)
1998年度: 900千円 (直接経費: 900千円)
1997年度: 1,100千円 (直接経費: 1,100千円)
|
キーワード | 音声合成 / 自由発話 / 韻律 / 感性情報処理 / 自然言語処理 / 文脈自由文法 / 音声理解 |
研究概要 |
近年、音声認識/合成の分野では“より自由な発声"を扱うようになってきた。自由発話での大きな特徴として、話者の感情が込められることが挙げられる。今年度は、基本6感情から「恐怖」を除く「怒り」「驚き」「悲しみ」「嫌悪」「喜び」を取り上げ、その表現を制御する要因として話すテンポ、声の高さ、声の大きさに注目した。各々に対応する音響量は、発話速度、基本周波数(ピッチ)、振幅値となり、これを感情を表す特徴量とした。 韻律モデルとしては、従来から用いられてきた藤崎モデルを採用した。まず、5つの各感情をよく表すように藤崎モデルのパラメータを決定した。次にこのパラメータが妥当なものかどうかを、実際に音声を合成出力して検証した。音声合成システムは、音素を合成単位とした、波形合成方式を採用した。保存データは、音素の波形データそのものではなく、波形の特徴となる局所的なピークを制御点としたデータを、各音素について作成し、合成に用いる。合成の際には、ピッチ周期にあわせて、制御点を時間軸上に配置し、それを余弦関数による補間を行うことにより、音声波形を生成する。データとして持っているのは各音素のデータだけであり、音素間のわたりの部分の波形には、その両端の音声データから制御点の移動により得られる中間波形を用いる。 決定したパラメータから合成された単語音声から、各感情を知覚できるかを実験した。結果として、「怒り」「嫌悪」「悲しみ」については85%以上の高い正反応率が得られ、合成に用いたパラメータ値が妥当なものであることが裏付けられた。一方「喜び」と「驚き」については、韻律だけからその2つを区別することが困難であるどの仮説を得ることができた。
|