研究課題/領域番号 |
19H04136
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 名古屋工業大学 |
研究代表者 |
南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
|
研究分担者 |
橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
大浦 圭一郎 名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)
2021年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
2020年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円)
2019年度: 6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
|
キーワード | 音声合成 / 深層学習 |
研究開始時の研究の概要 |
本研究では従来の隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発を目的とする。「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、現状の深層学習に基づくEnd-to-End音声合成における3つの問題点、1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立、の解決を目指す。
|
研究成果の概要 |
近年の深層学習に基づく音声合成は、入力(テキスト)から出力(音声波形)への変換を直接的にモデル化するEnd-to-Endアプローチによって、非常に高品質な音声を合成可能である。その一方で、次のような3つの問題点があった。1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立。本研究では、このようなEnd-to-Endアプローチにおける本質的な問題を解決する次世代音声合成技術を開発し、評価実験によってその有効性を示した。
|
研究成果の学術的意義や社会的意義 |
本研究は、統計的音声合成の先駆けとなった隠れマルコフモデルに基づく音声合成手法と近年の深層学習に基づく手法の融合を目指したものであり、これまでの研究分野の知見を活かしつつ、次世代へ発展させるという学術的意義を持った提案となっている。提案した音声合成の枠組みは、高い自然性を維持しつつ、話者性や感情、発話スタイルなどを自由自在にコントロール可能な、より柔軟な音声合成技術の基盤となるものであり、今後、音声対話や音声翻訳などの高度なアプリケーションへの活用によって、より豊かな音声コミュニケーションの実現が期待できる。
|