• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実施状況報告書

深層学習に基づいた新しい信号処理技術の確立と歌声および楽器音生成への応用

研究課題

研究課題/領域番号 18K11163
研究機関名古屋工業大学

研究代表者

大浦 圭一郎  名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)

研究期間 (年度) 2018-04-01 – 2021-03-31
キーワード信号処理 / ディープラーニング / 歌声合成 / 楽器音合成
研究実績の概要

これまでの音声関連技術に関する研究は,音声の生成モデルに基づいており,その中で取り扱える枠組みの中に制限されていたため,モデル構造に関する過度な制約が性能の限界に繋がっていた.このような状況を打破すべく,本研究テーマは近年急速に技術革新が進んでいる深層学習に基づき,音声波形の直接モデル化手法を新たに確立しようとするものである.本年度は前年度に引き続き,歌声および楽器音を対象として,従来のデジタル信号処理の枠を超えた音響モデリングの研究を進め,その一部を学術論文としてまとめ,投稿・発表することができた.その中でも,深層学習に基づいて周期・非周期信号からより自然な音声波形を生成する構成は,日本音響学会の粟屋潔学術奨励賞(2019年9月)や情報処理学会のマイクロソフト情報学研究賞(2020年3月)を受賞するなどの成果をあげている.また,それだけにとどまらず,近年のテキスト音声合成の分野でその有効性が示されている,入出力の時間的な対応情報をモデル自体が推定できるEnd-to-End構造を歌声の合成に応用する検討も進め,その一部を発表することができた.

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

近年のテキスト音声合成の分野でその有効性が示されている,入出力の時間的な対応情報をモデル自体が推定できるEnd-to-End構造を歌声の合成に応用する検討も進め,その一部を発表することができた研究(村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一, ``楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討,'' 日本音響学会2019年秋季研究発表会, pp. 943-944, 滋賀, 日本, 2019年9月)について述べる.
これまでの歌声合成では,楽譜から音響パラメータへの変換モジュール,発声タイミングの推定モジュール,および波形生成モジュールなどが,それぞれ独立に定義されて最適化されてきた.より高品質な歌声を合成するためには,システム全体として最適化可能なEnd-to-Endモデルが必要と考えられる.音声合成の分野では近年,アテンション機構を含むsequence-to-sequenceモデルにより,音響パラメータと時間構造の同時モデリングが提案されているが,歌声合成のように一つのシーケンスが長い場合は,音響パラメータと時間構造の対応関係の探索空間が広くなってしまい,そのまま流用することができない.本研究では楽譜の時間情報や音高情報を探索に利用することでこの問題を解決し,歌声合成においても音響パラメータと時間構造の同時モデリングが可能であることを示した.

今後の研究の推進方策

本研究により,これまでのデジタル信号処理における波形生成モデルとは全く異なる性質を持つ高性能なモデル化が期待でき,合成された歌声の品質も格段に向上することが期待される.脳神経系を模倣した非線形変換が可能なモデルであるDNNに基づいたモデル構造はいくつか考えられるが,深層学習に基づいて周期・非周期信号から音声波形を生成する構成で非常に自然な音声を生成することができたため,今後はこの構成に基づいて理論的な整理や頑健性の検証などを行う.この構成において歌唱者依存性・楽器依存性の調査を進めており,位相情報を隠れパラメータとして利用することでそれらの依存性を解消できる道筋が見えてきたところなので,そのモデル化の検討を進める.また,入出力の時間的な対応関係をモデル自体が推定できるEnd-to-End構造を歌声に応用する手法も成果がでてきたところなので,これらを引き続き進め,本年度と同様,研究成果が出た段階で速やかに学術論文としてまとめ,投稿・発表を行い,関連分野全体のレベルアップと当該技術の普及に寄与したい.

次年度使用額が生じた理由

当初の計画の想定よりもアルゴリズムの設計に時間がかかったため,次年度使用額が生じた.アルゴリズム設計の結果,想定したよりも多くの計算資源が必要なことが判明したため,2020年度の助成金は主に計算資源に充てる.

  • 研究成果

    (9件)

すべて 2019

すべて 学会発表 (9件) (うち国際学会 3件、 招待講演 2件)

  • [学会発表] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019

    • 著者名/発表者名
      村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会2019年秋季研究発表会
  • [学会発表] Singing voice synthesis based on generative adversarial networks2019

    • 著者名/発表者名
      Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • 学会等名
      2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • 国際学会
  • [学会発表] Speaker-dependent WaveNet-based delay-free ADPCM speech coding2019

    • 著者名/発表者名
      Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • 学会等名
      2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • 国際学会
  • [学会発表] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019

    • 著者名/発表者名
      大浦圭一郎, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
    • 学会等名
      情報処理学会研究報告
  • [学会発表] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019

    • 著者名/発表者名
      大浦圭一郎, 高木信二, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会2019年秋季研究発表会
  • [学会発表] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019

    • 著者名/発表者名
      Keiichiro Oura, Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
    • 学会等名
      10th ISCA Speech Synthesis Workshop (SSW10)
    • 国際学会
  • [学会発表] 歌声合成におけるニューラルボコーダの比較検討2019

    • 著者名/発表者名
      和田蒼汰, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • 学会等名
      音声研究会
  • [学会発表] 統計的歌声合成技術とその実用化2019

    • 著者名/発表者名
      大浦圭一郎
    • 学会等名
      日本AI音楽学会
    • 招待講演
  • [学会発表] 統計的パラメトリック音声合成技術とその実用化2019

    • 著者名/発表者名
      大浦圭一郎
    • 学会等名
      情報処理学会音学シンポジウム
    • 招待講演

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi