研究課題/領域番号 |
21K11963
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 岡山大学 |
研究代表者 |
阿部 匡伸 岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)
|
研究分担者 |
原 直 岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2021年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | 音声合成 / 感情 / 話者性 / 音声対話システム / DNN / 感情音声 / WaveNet / x-vector / 深層学習 / マルチモダル |
研究開始時の研究の概要 |
音声対話システムの合成音声出力として、より自然な応答を実現するために多様な感情表現を可能とするとともに話者性を自由度高く表現できる音声合成方式の確立を目指す。研究のポイントはWaveNetをベースとする音声生成過程を考慮しない新しいDNNの音声信号生成法の検討にあり、検討項目は①非言語情報の表現モデル、②知識蒸留(Knowledge Distillation)の発想に基づく少量データに基づく学習、③音声対話システムにおける有効性の検証である。
|
研究成果の概要 |
DNN音声合成において、非言語情報の感情や個人性を表現する方式を2つのアプローチで検討した。アプローチ1は、言語情報の伝達は二の次とし、感情の伝達を優先する。数時間程度の通常発話データを用いて学習した後、10分程度の感情音声で再学習する。人間の発声した音声らしさを保ちつつ、感情音声を合成できること、感情の強度も制御できることが明らかとなった。アプローチ2は、入力の音声に含まれる感情を合成音声に反映する方式である。声質変換で話者性を変更した後に、感情情報をx-vectorで条件付けしてTTSする。評価実験の結果、入力音声の感情ばかりでなく、感情の強弱も反映させて合成できることが明らかとなった。
|
研究成果の学術的意義や社会的意義 |
テキストからの音声合成(Text-to-Speech:TTS)は,近年の深層学習(Deep Leaning)に基づくDeep Neural Networks(DNN)を利用することで飛躍的に性能が向上し,音声対話システムに導入されるに至った.音声は人間にとって便利なコミュニケーション手段であることから、今後もさらに合成音声の用途が増えていくと考えられる。その際、非言語情報である感情や個人性を含めた多様性を十分に表現することが肝要である。本研究は少量のデータによって非言語情報を制御する方式を提案しており、今後の音声対話システムを広く展開する上で必要な要素技術となる。
|