2020 Fiscal Year Research-status Report
Project/Area Number |
19K20295
|
Research Institution | Nagoya University |
Principal Investigator |
小林 和弘 名古屋大学, 情報基盤センター, 研究員 (50815602)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声変換 / リアルタイム / 超短遅延音声変換 / 深層学習 |
Outline of Annual Research Achievements |
本研究課題の実施計画の第2・第3ステップは以下である.第2ステップとして,入力話者と目標話者で独立に学習された音声波形生成モデル間において,入力話者から目標話者へと変換する変換関数をモデル化する手法の実現に取り組む.本ステップでは,変換関数により生成された変換音声の話者性が目標話者の話者性へと変換出来ているかを主観評価実験により明らかにする.また,超短遅延での推論を実施した場合の変換音声の変換品質の変化を明らかにする. 最終ステップとして,入力話者が利用する超短遅延音声変換システムに対して,遅延量を変化させた場合に,入力話者の発話様式はどの程度変化するのか.また,変換音声の品質はどの程度変化するのかを調査し,入力話者と超短遅延音声変換システム間のインタラクションを明らかにする. 2020年度には,超短遅延音声変換を実現するために,非パラレル音声コーパスを用いた音声変換する手法に関する研究を実施した.本研究では,従来のパラレルデータを用いた音声変換に比べて,学習データを削減しつつ,高精度に音声変換を実現するための手法を提案している.本研究に関する研究成果は,2021年の国際会議IEEE ICASSPへと投稿しアクセプトされている.また,オープンソースソフトウェアとして公開されており,誰でも自由に利用出来るようになっている. 現在,本枠組みを利用した,超短遅延音声変換に関する研究を進めており,非常に短い遅延でのリアルタイム音声変換が実現している.研究成果は,現在論文に取りまとめられており,今後国際会議等に投稿予定である.今後の研究課題としては,遅延量を小さくするほど,音声変換の品質が低下する事が確認されているため,変換の精度低下を緩和しつつ遅延量を小さくする手法に関して研究を行う.また,同時に,最終ステップの研究も合わせて検討を進める予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
3年間の研究課題の3年目を迎えており,申請書に定義した3つのステップの2つ目まで概ね完了しているため.
|
Strategy for Future Research Activity |
研究実績の概要に記載したとおり,超短遅延音声変換の可用性の向上に関して検討を進める予定である.
|
Causes of Carryover |
主たる事由として、計画していた国際会議に参加する事がなくなったため。Covid19の状況によっては、最終年度に不要分を返還する予定である。
|
Remarks |
オープンソースソフトウェアの公開ページ
|