研究課題/領域番号 |
18300063
|
研究機関 | 早稲田大学 |
研究代表者 |
匂坂 芳典 早稲田大学, 大学院・国際情報通信研究科, 教授 (70339737)
|
研究分担者 |
小林 哲則 早稲田大学, 理工学部, 教授 (30162001)
誉田 雅彰 早稲田大学, スポーツ科学学術院, 教授 (90367095)
|
キーワード | 音声合成 / 韻律制御 / 対話音声 / イントネーション / 基本周波数 / パラ言語情報 |
研究概要 |
本年度は、昨年度に明らかになった3次元の発話印象(確信・疑念、肯定・否定、好印象・悪印象)とFOの時間変化形状を現す4種のダイナミックパタン(上昇、平坦、下降、上昇後下降)の対応関係の言語普遍性を調べため、言語間に渡る対話韻律生成実験を行った。多次元尺度溝成法(MDS)を利用した分析により得られた日本語-語発話「ん」が有する声帯の基本周波数(FO)特性とその聴覚印象関係を用いて、中国語単語の対話音声を合成した。FOの変更には指令応答モデルを使用し、合成対象の中国語語彙自身が与える印象に対応した日本語「ん」の音声が有する韻律特性を用い、読み上げ中国語音声の韻律制御パラメータを変形することにより対話韻律を実現した。作成した中国語対話合成音声の自然性評価実験の結果、先に提案した印象ベクトル表現に基づく韻律生成法が言語共通に使用できる可能性を確認できた。この実験を通じて発話印象と対話韻律との関係は、一般性を持つことが示された。 発話印象と対話韻律との関係がより明確に規定できれば、当該研究目的の対話音声合成に役立つのみならず、いわゆるバラ言語情報の記述、認識といった、さらに広い分野への適用可能性が拡大する。このため、日本語-語発話「ん」の印象自動抽出実験を行った。日本語-語発話「ん」の音声の基本周波数平均値、ダイナミックレンジ、正規化パタン概形、持続時間から「ん」の印象を自動推定する方法を考案し、オープン実験によりその有効性を確認できた。この結果、いわば対話韻律合成の逆写像の可能性が示された。これによって、これまで、工学のみならず音声学でも手付かずにいた韻律が有するバラ言語情報の記述に道を開き、それらの合成・認識の実現手段を提供することができた。
|