• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

Next-generation audio and speech processing architectures based on deep learning

Research Project

Project/Area Number 22H03614
Allocation TypeSingle-year Grants
Research InstitutionNagoya Institute of Technology

Principal Investigator

徳田 恵一  名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

Co-Investigator(Kenkyū-buntansha) 南角 吉彦  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
橋本 佳  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
Project Period (FY) 2022-04-01 – 2025-03-31
Keywords深層学習 / 音声 / 生成モデル
Outline of Annual Research Achievements

従来型のデジタル信号処理理論は、音声・オーディオ信号処理関連の研究分野における最も根本的な考え方として広く普及・定着しているが、単純なモデル構造による制約のため、その性能には限界があった。本研究では、深層学習に基づいて信号モデルを構成することにより、新しい形の音声信号生成技術を確立し、音声合成、音声符号化、声質変換、更には楽器音等のオーディオ音声信号生成への応用により、その有効性を検証することを目的とする。特に、多視点的・俯瞰的な観点から、音声波形生成に適したモデル構造を探求するとともに、「従来型モデル構造の部分導入」および「学習データ拡張による制御構造の内在化」のふたつのアプローチにより、従来型の音声波形生成手法の利点である「軽量性」、「制御性」を兼ね備えたモデル構造を明らかにすることを目指す。
本年度に関しては、多視点的・俯瞰的な観点から、音声生成に適した深層学習モデル構造について検討を進めた。また、応用分野に依存しない形の検討を行い、続いて「音声合成・歌声合成」、「音声符号化」、「声質変換」の3つの主要応用分野に依存した検討を開始した。
また、並行して、従来型のモデルの利点である「軽量性」、「制御性」の実現のため、「従来型モデル構造の部分導入」について検討し、微分可能な形の従来型の信号処理モジュールをGPU向きの並列実装することにより、ニューラルネットワークモデルと組み合わせながら、End2endに学習可能な手法を提案し、その有効性を確認した。実装のコア部分についてはオープンソースソフトウェアとして公開した。
また、並行して「学習データ拡張による制御構造の内在化」に関しては、いくつかの方式について検討を進め、他手法との比較を行った。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

計画通りに研究を進行させるだけでなく、特に「従来型モデル構造の部分導入」については、目論見通り「軽量性」を実現するだけでなく、高度な「制御性」を維持しながら、高品質な合成音声を生成可能な方式を提案することができた。成果は、関連分野トップカンファレンスであるICASSP 2023に再録されている。また、実装のコア部分はオープンソースソフトウェアとして公開した。このため、当初の計画以上に進展していると言える。

Strategy for Future Research Activity

昨年度には、多視点的・俯瞰的な観点(具体的には、「音声品質」、「計算量/モデルサイズ」、「並列計算時間」等の9つの観点)から、音声生成に適した深層学習モデル構造について検討を進めた。また、先行して検討を開始した並行して、「従来型モデル構造の部分導入」について検討を行い、従来型のモデルの利点である「軽量性」、「制御性」を維持しながら、高品質な合成音声が得られることを確認した。
本年度は、「従来型モデル構造の部分導入」について期待以上の成果が得られたことから、本アプローチを軸に「学習データ拡張による制御構造の内在化」との融合を図る。また、「音声合成・歌声合成」、「音声符号化」、「声質変換」の3つの主要応用分野に依存した検討を並行して行う。
昨今、ネット上から収集されたデータを学習に利用した画像、音声、テキスト等の生成型AIについて、データ提供者の権利の問題として議論されることが多い。本研究では、必要に応じて音声データを収録する際には、これまで通り、本研究の趣旨に合致した内容とすると共に、個人情報の取り扱い、データ提供者の各種権利等について整合性のある形とするよう注意する。

  • Research Products

    (12 results)

All 2023 2022 Other

All Presentation (11 results) (of which Int'l Joint Research: 3 results,  Invited: 1 results) Remarks (1 results)

  • [Presentation] Embedding a differentiable mel-cepstral synthesis filter to a neural speech synthesis system2023

    • Author(s)
      Takenori Yoshimura, Shinji Takaki, Kazuhiro Nakamura, Keiichiro Oura, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      ICASSP 2023
    • Int'l Joint Research
  • [Presentation] Singing Voice Synthesis Based on a Musical Note Position-Aware Attention Mechanism2023

    • Author(s)
      Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      ICASSP 2023
    • Int'l Joint Research
  • [Presentation] 自己教師あり学習による特徴抽出器とcoarse-fine変換を用いた少量学習データによる歌声変換2023

    • Author(s)
      田中琉聖, 山田淳司, 高木信二 , 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2023年春季研究発表会
  • [Presentation] 発声タイミングのずれを考慮したフレーム駆動型アテンション機構に基づく歌声合成2023

    • Author(s)
      西原美玖, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      音声研究会
  • [Presentation] 音声合成技術の発展と未来 -個人的視点から雑談風に2022

    • Author(s)
      徳田恵一
    • Organizer
      JST CREST「共創型音メディア機能拡張」中間シンポジウム 2022
    • Invited
  • [Presentation] Sequence-to-sequence歌声合成のための発声タイミングのモデル化に関する検討2022

    • Author(s)
      西原美玖, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年秋季研究発表会
  • [Presentation] Sequence-to-sequence歌声合成のための音符位置に基づくアテンション機構の検討2022

    • Author(s)
      法野行哉, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年秋季研究発表会
  • [Presentation] 半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成2022

    • Author(s)
      藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年秋季研究発表会
  • [Presentation] 微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討2022

    • Author(s)
      吉村建慶, 高木信二, 中村和寛, 大浦圭一郎, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年秋季研究発表会
  • [Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いた音声合成におけるパラメータ共有構造の検討2022

    • Author(s)
      石田龍成, 藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年秋季研究発表会
  • [Presentation] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022

    • Author(s)
      Takato Fujimoto, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      ICASSP 2022
    • Int'l Joint Research
  • [Remarks] A differential version of SPTK

    • URL

      https://github.com/sp-nitech/diffsptk

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi