2022 Fiscal Year Research-status Report
感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究
Project/Area Number |
21K11963
|
Research Institution | Okayama University |
Principal Investigator |
阿部 匡伸 岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)
|
Co-Investigator(Kenkyū-buntansha) |
原 直 岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 感情音声 / 話者性 / DNN / WaveNet / x-vector |
Outline of Annual Research Achievements |
研究計画調書に記載した課題に関して,令和4年度(2022年度)に実施した内容は下記の通り。 (課題1)非言語情報の表現モデル 「①-2感情強度表現方式の検討」について,X-vectorを利用して感情強度を制御する方式を検討した。感情は曖昧な情報であり、感情音声を喜怒哀楽にカテゴライズし、さらにそれらの強度をモデル化することは難しい。そこで、感情カテゴリとその強度を推定すること無しに、感情音声からX-vectorを抽出して、合成音声に反映させる方式を検討した。評価実験の結果、「喜」では80%、「哀」では60%程度の感情が表現できた。「喜」「哀」の性能差は原音声の感情の強さに依存している。この点は、評価を含め今後検討を進める。 (課題2)少量データによる学習方式 「②-2学習データ量と性能の検討」について、学習済みのモデルを操作して多様な話者性を持つ音声を合成する方式を検討した。提案方式は、限られた学習データを利用して、学習データに含まれない話者性で音声を合成できる。具体的には、複数の学習話者からX-vectorを抽出し、各X-vectorの重みづけ和によって、新しい話者性を表現する。また、平均基本周波数の影響を低減させてX-vectorを抽出する方式を提案した。評価実験の結果、重みの大きさに対応して、話者性を制御できることが明らとなった。 (課題3)音声対話システムへの応用 「音声対話タスクの検討」について、課題1で検討した「X-vectorを利用して感情強度を制御する方式」を利用するタスクとして、生徒と教師の対話タスクを選定した。システムが教師役であり、生徒の発話に対して回答する。生徒が「喜」や「哀」の感情で発話すれば、教師も「喜」や「哀」の感情で応答する。評価実験の結果、生徒の感情に合わせて教師が応答できることが明らかとなった。今後は、この応答戦略の妥当性と有効性を検討する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「(課題1)非言語情報の表現モデル」に関しては,当初の計画で3年間に実施予定であった全ての項目を実施し、英語論文誌に投稿して採録となった。計画を大幅に上回って進捗している.また, 「(課題2)少量データによる学習方式」については、感情データの収集に先んじて研究用に公開されているデータを利用して、アルゴリズムの開発を先行させた。「(課題3)音声対話システムへの応用」については、対話システムを想定した評価実験を先行させ、システムの開発は来年度に変更した。研究の着手の順番は計画と変えているが、研究は着実に進んでいる。
|
Strategy for Future Research Activity |
毎年新しいEnd-2-EndのTTSが提案されており、研究の展開が目まぐるしく変化している。昨年度の研究では、最新の方式を利用しており、検討課題において基本性能を確認するために大量の学習データを利用して検討を進めた。今後は、確認した基本性能をベースに学習データの削減や、学習データにない話者性や感情表現の検討を進める予定である。
|
Causes of Carryover |
コロナ禍のため,国際学会,国内学会がオンライン開催となり,旅費が不要となったため,予定の支出額を下回った.残金は,今後の旅費に使用する予定である.
|