2009 Fiscal Year Annual Research Report
ヒューマノイド音声対話システムのための話し言葉音声合成に関する研究
Project/Area Number |
21800020
|
Research Category |
Grant-in-Aid for Young Scientists (Start-up)
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
能勢 隆 Tokyo Institute of Technology, 大学院・総合理工学研究科, 助教 (90550591)
|
Keywords | テキスト音声合成 / 隠れマルコフモデル / 話し言葉音声 / 感情音声 / HMM音声合成 / ヒューマノイドロボット / 音声対話システム / ロバスト音声認識 |
Research Abstract |
本研究はヒューマノイド音声対話システムの実現に向けた多様な音声の認識・合成技術のための各基盤要素技術の研究・開発からなり、本年度は以下に示す4項目について成果が得られた。 (1) 感情や発話様式を伴う音声の認識率の向上を目的とし、重回帰隠れマルコフモデル(HMM)に基づくオンラインでの音響モデルの適応化手法を提案し、入力された発話毎にモデルを適応することの有効性を確認した。また日本語話し言葉コーパス(CSJ)を用いた実験を行い、話し言葉においてもその有効性を確認した。 (2) 音声に表れる感情や発話様式を識別し、さらに表現の度合い推定も可能な手法として音声のスペクトル、基本周波数、音韻継続長を同時に考慮した重回帰隠れセミマルコフモデルに基づくスタイル推定法を提案し模擬音声・自然発話音声による客観および主観評価実験により有効性を確認した。 (3) 音声の中で最も自発性の高い対話音声の合成を目的とし、HMMに基づく対話音声合成法を提案し、対話音声合成のためのコンテキストの検討、対話音声に基づく平均声を用いた合成音声の品質改善などを行った。また、実験により対話における多様な表現が再現されることを示した。 (4) テキスト音声合成において話者や感情・発話様式の多様化を容易にするために、モデル学習時のコストの削減を目的とし、平均声と量子化基本周波数に基づく教師なしモデル学習法を提案し、従来の教師あり学習法に近い品質が得られることを示した。
|
-
-
-
-
-
[Journal Article] A robust speaker-adaptive HMM-based text-to-speech synthesis2009
Author(s)
Junichi Yamagishi, Takashi Nose, HeigaZen, Zhen-Hua Ling, Tomoki Toda, Keiichi Tokuda, Simon King, Steve Renals
-
Journal Title
IEEE Trans. on Audio, Speech, and Language Processing Vol.17, No.6
Pages: 1208-1230
Peer Reviewed
-
-
-
-
-
-
-
-
-
-
-
-
-
-