研究課題/領域番号 |
17H04687
|
研究種目 |
若手研究(A)
|
配分区分 | 補助金 |
研究分野 |
知覚情報処理
|
研究機関 | 国立情報学研究所 |
研究代表者 |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
研究課題ステータス |
完了 (2019年度)
|
配分額 *注記 |
21,710千円 (直接経費: 16,700千円、間接経費: 5,010千円)
2019年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2018年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
2017年度: 9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円)
|
キーワード | 音声情報処理 / 音声合成 / 深層学習 / 話者適応 / 音声強調 / デジタルクローン / ディープラーニング |
研究成果の概要 |
話者適応は音声合成を応用した声のデジタルクローン技術である。本研究は音声合成用途以外の劣環境で収録された音声を対象とすべく、必要な要素技術を新たに提案し、データベースも構築した。まず低品質音声と元の高品質音声が対となったパラレルデータベースDR-VCTKを構築した。そしてテキストデータが付随しない音声信号からでも手軽に声のデジタルクローン出来るように、Multi-modal architectureという新たなニューラルネットを提案した。さらに劣環境下の音声を元に学習した話者エンコーダを組み込んだ新たなニューラルネットワークも提案し、教師なし話者適応を劣環境下の音声からでも行えることを示した。
|
研究成果の学術的意義や社会的意義 |
音声合成用音響モデルの学習は、通常、スタジオ収録した高品質音声のみを対象にする。それゆえ、雑音・反響音を含む音声もしくは低品質収録器材により収録された音声に基づき音声合成を行うことは容易ではなく、研究理論に至っては全く構築されていないと言って良い状況であった。本研究は既存技術の制約を取り払い、劣悪条件や正解ラベルがないと言った環境においても、声のデジタルクローンを可能にするした。それゆえ、音声合成および話者適応技術を理論的により熟成させたという学術的意義を持つ。また、音声合成および話者適応技術の応用先が爆発的に増えると予想され、社会的意義も大きい。
|