2014 Fiscal Year Annual Research Report
ヒト発話シミュレータによるStory Teller Systemの構築
Project/Area Number |
25240026
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
赤木 正人 北陸先端科学技術大学院大学, 情報科学研究科, 教授 (20242571)
|
Co-Investigator(Kenkyū-buntansha) |
党 建武 北陸先端科学技術大学院大学, 情報科学研究科, 教授 (80334796)
鵜木 祐史 北陸先端科学技術大学院大学, 情報科学研究科, 准教授 (00343187)
田中 宏和 北陸先端科学技術大学院大学, 情報科学研究科, 准教授 (00332320)
宮内 良太 北陸先端科学技術大学院大学, 情報科学研究科, 助教 (30455852)
森川 大輔 北陸先端科学技術大学院大学, 情報科学研究科, 助教 (70709146)
末光 厚夫 北陸先端科学技術大学院大学, 情報科学研究科, 助教 (20422199)
川本 真一 北陸先端科学技術大学院大学, 情報科学研究科, 助教 (70418507)
北村 達也 甲南大学, 知能情報学部, 教授 (60293594)
ERICKSON Donna 金沢医科大学, 一般教育機構, 非常勤講師 (80331586)
榊原 健一 北海道医療大学, 心理科学部, 准教授 (80396168)
齋藤 毅 金沢大学, 電子情報学系, 助教 (70446962)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | 音声情報処理 / 音声合成 / 音声知覚 / 音声生成 |
Outline of Annual Research Achievements |
本研究では,非言語情報に関する音声知覚モデルと音声生成モデルを,知覚と生成の相互作用を記述した脳モデルにより結合することで,合成音声へのパラ言語・非言語情報付加が可能なStory Teller Systemの構築を行う。このために,(A) 生成モデルのコントロール手法の確立,(B) 知覚モデルで扱える発話スタイルの拡張,(C) これらのモデルを統合したシステムの構築ついて研究を実施した。 A.生成モデルの精緻化:研究用データベースを充実させるために,男性5名,女性5名,計10名の声優による感情音声発話を録音し,音声資料としてデータベース化した。そして,このデータを用いて,データベース内の複数の感情カテゴリ,複数の感情の度合いに対して,LFモデルによる声帯音源波形推定を実施した。その結果,LFモデルのパラメータ値として,感情ごとおよび各感情の度合いごとに明確な差が表れた。これらより,声帯音源モデルのパラメータを適切に制御することにより,感情音声合成が行える道が開けた。 B.知覚モデルの拡張:聴取印象の計測をより広範囲に行うために,日,米,中,独,越5か国語による感情音声のデータベースを用いて,日,中,越3母語グループによる知覚印象採取のための聴取実験を行った。実験結果から,グループでの知覚印象の共通性が見出された。この知見をもとに,複数言語のための合成感情音声評価モデルの構築を進めた。 C.統合システムの構築:意図した感情表現を適切に行うために,感情を記述する方法としてValence-Activation空間を採用し,この空間内で発話スタイルの差情報の算出を行うモデルを構築した。これをもとに,知覚モデルの逆モデル(すなわち知覚にもとづいた音響特徴推定モデル)を構築し,意図した知覚印象を与える音響特徴を推定することに成功した。この手法を用いれば,任意の印象を与える音声を合成可能となる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1.生成モデルの精緻化については,感情音声データベースの整備,このデータを用いたLFモデルによる声帯音源波形推定を実施し,声帯音源モデルのパラメータを適切に制御することにより感情音声合成が行える可能性を示したこと, 2.知覚モデルの拡張については,大規模に実施した聴取実験結果をもとに,複数言語のための合成感情音声評価モデルの構築を進めたこと,また,知覚にもとづいた音響特徴推定モデルを構築し,意図した知覚印象を与える音響特徴を推定することに成功したこと, 3.統合システムの構築については,新たにValence-Activation空間での感情表現を採用し,生成モデルと知覚モデルの一体化を図ったこと, これらを考慮し,ほぼ当初予定通りの進捗状況であると考える。
|
Strategy for Future Research Activity |
・生成モデルの精緻化: LFモデルによる声帯音源波形推定では,同時に声道形状の推定が可能である。これより,声帯音源波形だけではなく,声道形状における感情ごとおよび各感情の度合いごとの差異を検討する。また,推定された声帯音源波形および声道形状の差異と知覚印象との関連性も検討する。さらに,26年度に構築した知覚モデルの逆モデルを生成モデルとの比較により精緻化し,生理学的生成モデルへ徐々に移行する準備を行う。 ・知覚モデルの拡張: 合成された感情音声の客観的評価が行えるように,知覚モデルの精緻化を検討する。これにより自動で目標の知覚印象に近づくようにモデルパラメータを制御できるようにする。 ・統合システムの構築: ストーリーテラーシステムへの入力,この値にもとづいた合成音声の作成,合成音声の客観評価値,すべてがValence-Activation空間上での位置情報として統合できるように,Valence-Activation空間での知覚印象の表現の精緻化を検討する。
|
Research Products
(58 results)
-
-
-
-
-
-
[Journal Article] Jaw displacement and metrical structure in Japanese:The effect of pitch accent, foot structure, and phrasal stress2014
Author(s)
Kawahara, S., Erickson, D., Moore, J., Suemitsu, A., Shibuya, Y.
-
Journal Title
Journal of Phonetic Society of Japan
Volume: 18, 2
Pages: 77-87
Peer Reviewed / Acknowledgement Compliant
-
[Journal Article] Quantifying the effects of vowel quality and preceding consonants on jaw displacement: Japanese data2014
Author(s)
Kawahara, S., Masuda, H., Erickson, D., Moore, J., Suemitsu, A., Shibuya, Y.
-
Journal Title
Journal of Phonetic Society of Japan
Volume: 18, 2
Pages: 54-62
Peer Reviewed / Acknowledgement Compliant
-
-
-
-
[Journal Article] Jaw displacement patterns as articulatory correlates of metrical structure2014
Author(s)
Erickson, D., Kawahara, S., Wilson, I., Menezes, C., Kim, J., Suemitsu, A., Shibuya, Y., Moore, J.
-
Journal Title
Proc. Phonetic Building Blocks of Speech
Volume: なし
Pages: CD-ROM
Peer Reviewed / Acknowledgement Compliant
-
-
[Journal Article] Metrical structure and jaw displacement: an exploration2014
Author(s)
Erickson, D., Kawahara, S., Williams, J.C., Moore, J., Suemitsu, A., Shibuya, Y.
-
Journal Title
Proc. 7th Speech Prosody
Volume: なし
Pages: 300-304
Peer Reviewed / Acknowledgement Compliant
-
[Journal Article] Calculating articulatory syllable duration and prosodic boundaries2014
Author(s)
Erickson, D., Kawahara, S., Moore, J., Menezes, C., Suemitsu, A., Kim, J., Shibuya, Y.
-
Journal Title
Proc. 10th International Seminar on Speech Production
Volume: なし
Pages: 102-105
Peer Reviewed / Acknowledgement Compliant
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] Metrical structure and the C/D model2014
Author(s)
Erickson, D., Kawahara, S., Menezes, C., Moore, J., Kim, J., Suemitsu, A., Shibuya, Y.
Organizer
Adventures in Speech Science
Place of Presentation
Sanjyo Kaikan, Tokyo
Year and Date
2014-07-22 – 2014-07-23
-
-
-
-
-
-
-