• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

深層学習に基づいた新しい信号処理技術の確立と歌声および楽器音生成への応用

Research Project

Project/Area Number 18K11163
Research InstitutionNagoya Institute of Technology

Principal Investigator

大浦 圭一郎  名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)

Project Period (FY) 2018-04-01 – 2021-03-31
Keywords信号処理 / ディープラーニング / 歌声合成 / 楽器音合成
Outline of Annual Research Achievements

これまでの音声関連技術に関する研究は,音声の生成モデルに基づいており,その中で取り扱える枠組みの中に制限されていたため,モデル構造に関する過度な制約が性能の限界に繋がっていた.このような状況を打破すべく,本研究テーマは近年急速に技術革新が進んでいる深層学習に基づき,音声波形の直接モデル化手法を新たに確立しようとするものである.本年度は前年度に引き続き,歌声および楽器音を対象として,従来のデジタル信号処理の枠を超えた音響モデリングの研究を進め,その一部を学術論文としてまとめ,投稿・発表することができた.その中でも,深層学習に基づいて周期・非周期信号からより自然な音声波形を生成する構成は,日本音響学会の粟屋潔学術奨励賞(2019年9月)や情報処理学会のマイクロソフト情報学研究賞(2020年3月)を受賞するなどの成果をあげている.また,それだけにとどまらず,近年のテキスト音声合成の分野でその有効性が示されている,入出力の時間的な対応情報をモデル自体が推定できるEnd-to-End構造を歌声の合成に応用する検討も進め,その一部を発表することができた.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

近年のテキスト音声合成の分野でその有効性が示されている,入出力の時間的な対応情報をモデル自体が推定できるEnd-to-End構造を歌声の合成に応用する検討も進め,その一部を発表することができた研究(村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一, ``楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討,'' 日本音響学会2019年秋季研究発表会, pp. 943-944, 滋賀, 日本, 2019年9月)について述べる.
これまでの歌声合成では,楽譜から音響パラメータへの変換モジュール,発声タイミングの推定モジュール,および波形生成モジュールなどが,それぞれ独立に定義されて最適化されてきた.より高品質な歌声を合成するためには,システム全体として最適化可能なEnd-to-Endモデルが必要と考えられる.音声合成の分野では近年,アテンション機構を含むsequence-to-sequenceモデルにより,音響パラメータと時間構造の同時モデリングが提案されているが,歌声合成のように一つのシーケンスが長い場合は,音響パラメータと時間構造の対応関係の探索空間が広くなってしまい,そのまま流用することができない.本研究では楽譜の時間情報や音高情報を探索に利用することでこの問題を解決し,歌声合成においても音響パラメータと時間構造の同時モデリングが可能であることを示した.

Strategy for Future Research Activity

本研究により,これまでのデジタル信号処理における波形生成モデルとは全く異なる性質を持つ高性能なモデル化が期待でき,合成された歌声の品質も格段に向上することが期待される.脳神経系を模倣した非線形変換が可能なモデルであるDNNに基づいたモデル構造はいくつか考えられるが,深層学習に基づいて周期・非周期信号から音声波形を生成する構成で非常に自然な音声を生成することができたため,今後はこの構成に基づいて理論的な整理や頑健性の検証などを行う.この構成において歌唱者依存性・楽器依存性の調査を進めており,位相情報を隠れパラメータとして利用することでそれらの依存性を解消できる道筋が見えてきたところなので,そのモデル化の検討を進める.また,入出力の時間的な対応関係をモデル自体が推定できるEnd-to-End構造を歌声に応用する手法も成果がでてきたところなので,これらを引き続き進め,本年度と同様,研究成果が出た段階で速やかに学術論文としてまとめ,投稿・発表を行い,関連分野全体のレベルアップと当該技術の普及に寄与したい.

Causes of Carryover

当初の計画の想定よりもアルゴリズムの設計に時間がかかったため,次年度使用額が生じた.アルゴリズム設計の結果,想定したよりも多くの計算資源が必要なことが判明したため,2020年度の助成金は主に計算資源に充てる.

  • Research Products

    (9 results)

All 2019

All Presentation (9 results) (of which Int'l Joint Research: 3 results,  Invited: 2 results)

  • [Presentation] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019

    • Author(s)
      村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2019年秋季研究発表会
  • [Presentation] Singing voice synthesis based on generative adversarial networks2019

    • Author(s)
      Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • Int'l Joint Research
  • [Presentation] Speaker-dependent WaveNet-based delay-free ADPCM speech coding2019

    • Author(s)
      Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • Int'l Joint Research
  • [Presentation] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019

    • Author(s)
      大浦圭一郎, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      情報処理学会研究報告
  • [Presentation] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019

    • Author(s)
      大浦圭一郎, 高木信二, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2019年秋季研究発表会
  • [Presentation] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019

    • Author(s)
      Keiichiro Oura, Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      10th ISCA Speech Synthesis Workshop (SSW10)
    • Int'l Joint Research
  • [Presentation] 歌声合成におけるニューラルボコーダの比較検討2019

    • Author(s)
      和田蒼汰, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      音声研究会
  • [Presentation] 統計的歌声合成技術とその実用化2019

    • Author(s)
      大浦圭一郎
    • Organizer
      日本AI音楽学会
    • Invited
  • [Presentation] 統計的パラメトリック音声合成技術とその実用化2019

    • Author(s)
      大浦圭一郎
    • Organizer
      情報処理学会音学シンポジウム
    • Invited

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi