2021 Fiscal Year Annual Research Report
Project/Area Number |
19K20295
|
Research Institution | Nagoya University |
Principal Investigator |
小林 和弘 名古屋大学, 情報基盤センター, 研究員 (50815602)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声変換 / 話者 / 深層学習 / リアルタイム / フレーム化処理 / 主観評価実験 |
Outline of Annual Research Achievements |
音声変換は、入力話者が発話した音声を異なる話者(目標話者)の音声へと変換する事で、入力話者の話者性を目標話者の話者性へと変換するシステムである。また、短遅延変換法と組み合わせる事で、入力された音声をストリームに変換するリアルタイム音声変換が実現出来る。一方、リアルタイム音声変換は、因果的なシステムでなければならず、その制約故、誤差が大きくなり、変換品質が大きく低下する事が知られている。本研究課題では,遅延量を最小化する超短遅音声変換の実現を目指す。また、超短遅延音声変換による変換音声のフィードバックが入力話者に与える影響を調査し、システムの可用性を調査する。 第一年度は、超短遅延リアルタイム音声変換実現のために、音響特徴量分析のためのフレーム化処理を回避する手法に関して研究を行った。一方で、フレーム化を回避し、1サンプル毎の音声変換を行うには、モデルの圧縮等を行った場合でも多大な計算コストが必要となり、我々が目指す音声変換システムとは大きく乖離する事がわかった。第二年度では、1サンプル毎の音声変換ではなくフレーム化処理を行った場合でも遅延量を極短く、もしくは、ゼロに抑える超短遅延音声変換の実現に向けて研究に取り組んだ。 最終年度は、第二年度で取り組んだ未来音声フレームへの音声変換手法を利用したリアルタイム音声変換システムを開発し、プロトタイプシステムの動作確認を行った。また、より高精度な音声変換システムの実現のために、計算量が少なく高速に推論可能な非自己回帰型音声変換システムに関する研究およびプロトタイプシステムの開発を行った。さらに、予備実験としてプロトタイプシステムを用いた音声変換品質の評価・検討を行った。
|