• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

深層エネルギーベースモデルによる創造的声質変換の研究

Research Project

Project/Area Number 23K11161
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61010:Perceptual information processing-related
Research InstitutionAichi Shukutoku University

Principal Investigator

岸田 拓也  愛知淑徳大学, 人間情報学部, 助教 (80827907)

Co-Investigator(Kenkyū-buntansha) 中鹿 亘  電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)
Project Period (FY) 2023-04-01 – 2026-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2025: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2023: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Keywords声質変換 / 音声信号処理 / 拡散確率モデル / 脳波音声合成 / 感情変換 / エネルギーベースモデル / 生成モデル
Outline of Research at the Start

本研究では、従来の声質変換課題をどのように再定義して取り組めば、声質変換技術をより自由自在で創造的なものにできるのかという学術的問いに答えるべく、変換対象が特定の声質属性内だけに制限されず、より柔軟な方法で目標声質が指定可能となるように問題設定の範囲を広げた声質変換課題に挑戦する。
1)目標声質の静的及び動的特徴の両方を再現、2)複数の声質属性を同時に制御する、3)テキストと声質とを関連づけることのできる人工知能の学習、これらを可能とする手法を生成モデルの一つである深層エネルギーベースモデルのポテンシャルを引き出すことで明らかにし、創造的声質変換の実現を目指す。

Outline of Annual Research Achievements

本課題は、「声質変換課題をどのように再定義して取り組めば、声質変換技術をより自由自在で創造的なものにできるのか」という学術的「問い」に答えるべく、「特定の声質属性内だけに制限されず、ラベルによらない方法で目標声質が指定可能となるように問題設定の範囲を広げた声質変換課題に挑戦する」ことを目的とする。研究計画の概要として、1)目標声質の静的及び動的特徴の両方を再現、2)複数の属性を同時制御、3)テキストと声質とが関連づけられた表現空間の獲得、これらを可能とする手法を深層エネルギーベースモデルのポテンシャルを引き出すことで明らかにし、創造的声質変換の実現を目指す。
2023年度は深層エネルギーベースモデルと関連の深いニューラルネットワークモデルである、拡散モデルを用いて、誰の発話であるかという話者性を変換する声質変換モデルの設計・評価を行った。数学的に定式化の異なる2つの拡散モデルについて、どちらのモデルが話者性の声質変換の課題に適しているかを実験で評価したところ、変換の過程において入力音声の話者性の情報と発話内容の情報との分離が期待できる仕組みを有する提案モデルが、高い変換性能を実現できることを確かめた。
また、音声を聴取した際の脳活動を脳波として観測し、脳波信号と聴取音声信号の組を用いてニューラルネットワークモデルを学習することで、脳波から聴取音声信号を再現する試みも行った。テスト用の脳波信号からは言語内容が明瞭な音声を出力することはできなかったが、脳波の由来となる音声の話者が異なれば、異なる声質の音声が出力されることを確認した。このことから、脳波信号から声質に関する情報が読み出せると分かった。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

拡散モデルはエネルギーベースモデルと数学的な定式化の点で関連が深く、今回明らかにしたことは、深層エネルギーベースモデルのポテンシャルを引き出すという点において有用であると考える。また、脳波から声質の情報を読み出せると分かったことは、従来的な方法によらない声質変換手法を実現するという本課題達成に貢献したと考える。

Strategy for Future Research Activity

2023年度に得られた知見を踏まえ、引き続き声質変換モデルの設計と評価を行う。2023年度の研究成果から、拡散モデルで声質変換を行う場合、一度入力音声から声質情報を取り除き、拡散モデルによって新しい声質情報を付与することが効果的であると分かったため、声質情報を効果的に取り除く手法を明らかにする。具体的な方法の一つとして、音声のメルスペクトルを多変量解析により次元圧縮し、単純な構造のみを残すことで声質情報が取り除けるかを確認する。また、声質の動的特徴を変換するために、発話のリズムを再現に長けた声質変換手法におけるモデル学習の枠組みをエネルギーベースモデルに適用し、エネルギーベースモデルで発話のリズムを変換する手法を現在検討している。

Report

(1 results)
  • 2023 Research-status Report
  • Research Products

    (3 results)

All 2024

All Presentation (3 results)

  • [Presentation] 拡散確率モデルを用いたノンパラレルな Any-to-many 声質変換2024

    • Author(s)
      畠山 瑠一 , 奥田 耕平 , 中鹿 亘
    • Organizer
      日本音響学会2024年春季研究発表会
    • Related Report
      2023 Research-status Report
  • [Presentation] DDPMVC:連続時間拡散確率モデルを用いた非パラレル声質変換と評価2024

    • Author(s)
      畠山 瑠一 , 奥田 耕平 , 中鹿 亘
    • Organizer
      研究報告音声言語情報処理(SLP)
    • Related Report
      2023 Research-status Report
  • [Presentation] Transformerを用いた脳波信号からの音声復元の検討2024

    • Author(s)
      水野 友暁, 岸田 拓也, 吉村 奈津江, 中鹿 亘
    • Organizer
      研究報告音声言語情報処理(SLP)
    • Related Report
      2023 Research-status Report

URL: 

Published: 2023-04-13   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi