• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

複数の調音運動データを中間情報とするマルチモーダル音声合成

Research Project

Project/Area Number 22K12100
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61010:Perceptual information processing-related
Research InstitutionTokyo University of Science

Principal Investigator

桂田 浩一  東京理科大学, 創域理工学部情報計算科学科, 教授 (80324490)

Co-Investigator(Kenkyū-buntansha) 若宮 幸平  九州大学, 芸術工学研究院, 助教 (70294999)
牧野 武彦  中央大学, 経済学部, 教授 (00269482)
Project Period (FY) 2022-04-01 – 2027-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2026: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2025: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Keywords調音運動 / 音声合成 / EMA / rtMRI / マルチモーダル
Outline of Research at the Start

人間の発話メカニズムに近い音声生成法を実現するため,複数種類の調音運動データ(発
話時の舌や唇の動き)を中間情報として用いた「言語⇒調音運動⇒音声」の形のマルチモー
ダル音声合成システムを開発する.

Outline of Annual Research Achievements

本研究では,調音運動データを中間情報とするマルチモーダル音声合成システムの構築を目標に,①EMAデータベースの構築,②EMAデータからの音声合成法の検討,③言語からのEMAデータおよびrtMRIデータの生成,④マルチモーダル音声合成器としての統合を目指している.このうち2023年度には①のEMAデータベースの構築について,話者1名のEMAデータの収録を行い,データベース拡充を行った.また③について,言語からIPA(International Phonetic Alphabet)を通して調音運動データを生成する仕組みを検討した.さらに,④の構成要素となるrtMRIデータからの音声合成法について,rtMRIデータから音響特徴量を生成する手法及びrtMRIデータから音声を直接合成する手法をそれぞれ検討した.
これらの成果のうち,③および④については日本音響学会秋季研究発表会,InterSpeech2023,および電子情報通信学会論文誌Dにおいてそれぞれ報告を行っている.
[1] 大谷 祐人,澤田 隼,大村 英史,桂田 浩一:“MRI正中矢状断面画像からのF0推定の可能性について”,日本音響学会2023年春季研究発表会,2-9-13 (2023-9).
[2] 丸山 虹樹,澤田 隼,大村 英史,桂田 浩一:“1次元畳み込みニューラルネットワークを用いたIPAからの調音運動データ生成”,日本音響学会2023年春季研究発表会,3-Q-38 (2023-9).
[3] Yuto Otani, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada, "Speech Synthesis from Articulatory Movements Recorded by Real-time MRI", In Proc. InterSpeech2023, pp.127-131 (2023-8).
[4] 丹治 涼,大村 英史,澤田 隼,桂田 浩一:“RtMRIからの調音-音響変換における転置畳み込みニューラルネットワークの利用”,電子情報通信学会論文誌D,Vol.J106-D,No.10,pp.470-479 (2023-10).

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

5年間の研究機関のうち2年が終了し,①のEMAデータのデータベース化については概ね人数分の収録を終えることができた.②~④についても順調に成果が出ており,特に④の構成要素の一部となるrtMRIからの音声合成についてはトップカンファレンスでの発表および学術論文での成果発表を行っている.以上より,本プロジェクトはおおむね順調に進展しているといえる.

Strategy for Future Research Activity

2024年度は①についてはこれまでに収録したEMAデータを精査し,データベースに格納可能なデータを厳選する予定である.その後,データベースに格納するデータについて,同時収録した音声に対するIPAのラベリングを行う予定である.2024年度中にデータベースのフォーマット等を決定した後に今年度,もしくは来年度での公開を目指す.②~④については,引き続き検討を行い,日本音響学会研究発表会,InterSpeech,ICASSP,日本音響学会論文誌での成果報告を行う予定である.

Report

(2 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • Research Products

    (13 results)

All 2024 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (12 results) (of which Int'l Joint Research: 4 results)

  • [Journal Article] Use of Transposed Convolutional Neural Networks in Articulatory-to-Acoustic Conversion from rtMRI Data2023

    • Author(s)
      丹治 涼、大村 英史、澤田 隼、桂田 浩一
    • Journal Title

      電子情報通信学会論文誌D 情報・システム

      Volume: J106-D Issue: 10 Pages: 470-479

    • DOI

      10.14923/transinfj.2022JDP7045

    • ISSN
      1880-4535, 1881-0225
    • Year and Date
      2023-10-01
    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Presentation] Exploration of Causal Networks in Large-Scale Data Using Nonlinear Dimensionality Reduction2024

    • Author(s)
      Shusuke Tohno, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada
    • Organizer
      NCSP2024
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] Speech Synthesis from Articulatory Movements Recorded by Real-time MRI2023

    • Author(s)
      Yuto Otani, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada
    • Organizer
      INTERSPEECH2023
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] MRI正中矢状断面画像からのF0推定の可能性について2023

    • Author(s)
      大谷 祐人,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2023年秋季研究発表会
    • Related Report
      2023 Research-status Report
  • [Presentation] 1次元畳み込みニューラルネットワークを用いたIPAからの調音運動データ生成2023

    • Author(s)
      丸山 虹樹,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2023年秋季研究発表会
    • Related Report
      2023 Research-status Report
  • [Presentation] StarGANv2-VCへの2D-1-2D構造適用による精度変化の検証2023

    • Author(s)
      杉本 晃輔,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2023年春季研究発表会
    • Related Report
      2023 Research-status Report
  • [Presentation] Novel Instrumental Sound Creation Using Creative Adversarial Networks2023

    • Author(s)
      Hiroki Ito, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada
    • Organizer
      WASPAA2023
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] Automatic Detection of Poor Tone Quality in Classical Guitar Playing Using Deep Anomaly Detection Method2023

    • Author(s)
      Kenta Ogawa, Shun Sawada, Kouichi Katsurada, Hidehumi Ohmura
    • Organizer
      WASPAA2023
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] real-time MRIで収録した調音運動に基づくend-to-end音声合成2023

    • Author(s)
      大谷 祐人,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      電子情報通信学会技術報告SP2022-41
    • Related Report
      2022 Research-status Report
  • [Presentation] real-time MRI 調音運動データからの end-to-end 音声合成2023

    • Author(s)
      大谷 祐人,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2023年春季研究発表会
    • Related Report
      2022 Research-status Report
  • [Presentation] Vision Transformerの係数付き1bit化2023

    • Author(s)
      佐藤 駿,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      電子情報通信学会技術報告IBISML2022-90
    • Related Report
      2022 Research-status Report
  • [Presentation] RtMRIデータからの調音-音響変換における転置畳み込みニューラルネットワークの利用2022

    • Author(s)
      丹治 涼,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      日本音響学会音声研究会,電子情報通信学会技術報告EA2022-27
    • Related Report
      2022 Research-status Report
  • [Presentation] Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案2022

    • Author(s)
      青木 伸和,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      電子情報通信学会技術報告SP2022-28
    • Related Report
      2022 Research-status Report

URL: 

Published: 2022-04-19   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi