2021 年度研究成果報告書

階層化生成モデルとマルチタスク深層学習の融合に基づく次世代音声合成技術

研究課題

PDF

研究課題/領域番号	19H04136
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	名古屋工業大学
研究代表者	南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
研究分担者	橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907) 徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483) 大浦圭一郎名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	音声合成 / 深層学習
研究成果の概要	近年の深層学習に基づく音声合成は、入力（テキスト）から出力（音声波形）への変換を直接的にモデル化するEnd-to-Endアプローチによって、非常に高品質な音声を合成可能である。その一方で、次のような３つの問題点があった。１．従来手法に比べ学習に大量のデータが必要、２．直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、３．入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立。本研究では、このようなEnd-to-Endアプローチにおける本質的な問題を解決する次世代音声合成技術を開発し、評価実験によってその有効性を示した。
自由記述の分野	音声情報処理
研究成果の学術的意義や社会的意義	本研究は、統計的音声合成の先駆けとなった隠れマルコフモデルに基づく音声合成手法と近年の深層学習に基づく手法の融合を目指したものであり、これまでの研究分野の知見を活かしつつ、次世代へ発展させるという学術的意義を持った提案となっている。提案した音声合成の枠組みは、高い自然性を維持しつつ、話者性や感情、発話スタイルなどを自由自在にコントロール可能な、より柔軟な音声合成技術の基盤となるものであり、今後、音声対話や音声翻訳などの高度なアプリケーションへの活用によって、より豊かな音声コミュニケーションの実現が期待できる。