複数の調音運動データを中間情報とするマルチモーダル音声合成

Research Project

Project/Area Number	22K12100
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	Tokyo University of Science
Principal Investigator	桂田浩一東京理科大学, 創域理工学部情報計算科学科, 教授 (80324490)
Co-Investigator(Kenkyū-buntansha)	若宮幸平九州大学, 芸術工学研究院, 助教 (70294999) 牧野武彦中央大学, 経済学部, 教授 (00269482)
Project Period (FY)	2022-04-01 – 2027-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000) Fiscal Year 2026: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000) Fiscal Year 2025: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000) Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000) Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Keywords	調音運動 / 音声合成 / EMA / rtMRI / マルチモーダル
Outline of Research at the Start	人間の発話メカニズムに近い音声生成法を実現するため，複数種類の調音運動データ（発話時の舌や唇の動き）を中間情報として用いた「言語⇒調音運動⇒音声」の形のマルチモーダル音声合成システムを開発する．
Outline of Annual Research Achievements	本研究では，調音運動データを中間情報とするマルチモーダル音声合成システムの構築を目標に，①EMAデータベースの構築，②EMAデータからの音声合成法の検討，③言語からのEMAデータおよびrtMRIデータの生成，④マルチモーダル音声合成器としての統合を目指している．このうち2023年度には①のEMAデータベースの構築について，話者1名のEMAデータの収録を行い，データベース拡充を行った．また③について，言語からIPA(International Phonetic Alphabet)を通して調音運動データを生成する仕組みを検討した．さらに，④の構成要素となるrtMRIデータからの音声合成法について，rtMRIデータから音響特徴量を生成する手法及びrtMRIデータから音声を直接合成する手法をそれぞれ検討した．これらの成果のうち，③および④については日本音響学会秋季研究発表会，InterSpeech2023，および電子情報通信学会論文誌Dにおいてそれぞれ報告を行っている． [1] 大谷祐人，澤田隼，大村英史，桂田浩一：“MRI正中矢状断面画像からのF0推定の可能性について”，日本音響学会2023年春季研究発表会，2-9-13 (2023-9)． [2] 丸山虹樹，澤田隼，大村英史，桂田浩一：“1次元畳み込みニューラルネットワークを用いたIPAからの調音運動データ生成”，日本音響学会2023年春季研究発表会，3-Q-38 (2023-9)． [3] Yuto Otani, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada, "Speech Synthesis from Articulatory Movements Recorded by Real-time MRI", In Proc. InterSpeech2023, pp.127-131 (2023-8). [4] 丹治涼，大村英史，澤田隼，桂田浩一：“RtMRIからの調音-音響変換における転置畳み込みニューラルネットワークの利用”，電子情報通信学会論文誌D，Vol.J106-D，No.10，pp.470-479 (2023-10)．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 5年間の研究機関のうち2年が終了し，①のEMAデータのデータベース化については概ね人数分の収録を終えることができた．②～④についても順調に成果が出ており，特に④の構成要素の一部となるrtMRIからの音声合成についてはトップカンファレンスでの発表および学術論文での成果発表を行っている．以上より，本プロジェクトはおおむね順調に進展しているといえる．
Strategy for Future Research Activity	2024年度は①についてはこれまでに収録したEMAデータを精査し，データベースに格納可能なデータを厳選する予定である．その後，データベースに格納するデータについて，同時収録した音声に対するIPAのラベリングを行う予定である．2024年度中にデータベースのフォーマット等を決定した後に今年度，もしくは来年度での公開を目指す．②～④については，引き続き検討を行い，日本音響学会研究発表会，InterSpeech，ICASSP，日本音響学会論文誌での成果報告を行う予定である．

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(13 results)

All 2024 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (12 results) (of which Int'l Joint Research: 4 results)

[Journal Article] Use of Transposed Convolutional Neural Networks in Articulatory-to-Acoustic Conversion from rtMRI Data2023
- Author(s)
  丹治　涼、大村　英史、澤田　隼、桂田　浩一
- Journal Title
  
  電子情報通信学会論文誌D 情報・システム
  
  Volume: J106-D Issue: 10 Pages: 470-479
- DOI
  10.14923/transinfj.2022JDP7045
- ISSN
  1880-4535, 1881-0225
- Year and Date
  2023-10-01
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Presentation] Exploration of Causal Networks in Large-Scale Data Using Nonlinear Dimensionality Reduction2024
- Author(s)
  Shusuke Tohno, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada
- Organizer
  NCSP2024
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Speech Synthesis from Articulatory Movements Recorded by Real-time MRI2023
- Author(s)
  Yuto Otani, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada
- Organizer
  INTERSPEECH2023
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] MRI正中矢状断面画像からのF0推定の可能性について2023
- Author(s)
  大谷祐人，澤田隼，大村英史，桂田浩一
- Organizer
  日本音響学会2023年秋季研究発表会
- Related Report
  2023 Research-status Report
[Presentation] 1次元畳み込みニューラルネットワークを用いたIPAからの調音運動データ生成2023
- Author(s)
  丸山虹樹，澤田隼，大村英史，桂田浩一
- Organizer
  日本音響学会2023年秋季研究発表会
- Related Report
  2023 Research-status Report
[Presentation] StarGANv2-VCへの2D-1-2D構造適用による精度変化の検証2023
- Author(s)
  杉本晃輔，澤田隼，大村英史，桂田浩一
- Organizer
  日本音響学会2023年春季研究発表会
- Related Report
  2023 Research-status Report
[Presentation] Novel Instrumental Sound Creation Using Creative Adversarial Networks2023
- Author(s)
  Hiroki Ito, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada
- Organizer
  WASPAA2023
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Automatic Detection of Poor Tone Quality in Classical Guitar Playing Using Deep Anomaly Detection Method2023
- Author(s)
  Kenta Ogawa, Shun Sawada, Kouichi Katsurada, Hidehumi Ohmura
- Organizer
  WASPAA2023
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] real-time MRIで収録した調音運動に基づくend-to-end音声合成2023
- Author(s)
  大谷祐人，澤田隼，大村英史，桂田浩一
- Organizer
  電子情報通信学会技術報告SP2022-41
- Related Report
  2022 Research-status Report
[Presentation] real-time MRI 調音運動データからの end-to-end 音声合成2023
- Author(s)
  大谷祐人，澤田隼，大村英史，桂田浩一
- Organizer
  日本音響学会2023年春季研究発表会
- Related Report
  2022 Research-status Report
[Presentation] Vision Transformerの係数付き1bit化2023
- Author(s)
  佐藤駿，澤田隼，大村英史，桂田浩一
- Organizer
  電子情報通信学会技術報告IBISML2022-90
- Related Report
  2022 Research-status Report
[Presentation] RtMRIデータからの調音-音響変換における転置畳み込みニューラルネットワークの利用2022
- Author(s)
  丹治涼，澤田隼，大村英史，桂田浩一
- Organizer
  日本音響学会音声研究会，電子情報通信学会技術報告EA2022-27
- Related Report
  2022 Research-status Report
[Presentation] Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案2022
- Author(s)
  青木伸和，澤田隼，大村英史，桂田浩一
- Organizer
  電子情報通信学会技術報告SP2022-28
- Related Report
  2022 Research-status Report

複数の調音運動データを中間情報とするマルチモーダル音声合成

Principal Investigator

桂田 浩一 東京理科大学, 創域理工学部情報計算科学科, 教授 (80324490)

¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Use of Transposed Convolutional Neural Networks in Articulatory-to-Acoustic Conversion from rtMRI Data2023

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Presentation] Exploration of Causal Networks in Large-Scale Data Using Nonlinear Dimensionality Reduction2024

Author(s)

Organizer

Related Report

[Presentation] Speech Synthesis from Articulatory Movements Recorded by Real-time MRI2023

Author(s)

Organizer

Related Report

[Presentation] MRI正中矢状断面画像からのF0推定の可能性について2023

Author(s)

Organizer

Related Report

[Presentation] 1次元畳み込みニューラルネットワークを用いたIPAからの調音運動データ生成2023

Author(s)

Organizer

Related Report

[Presentation] StarGANv2-VCへの2D-1-2D構造適用による精度変化の検証2023

Author(s)

Organizer

Related Report

[Presentation] Novel Instrumental Sound Creation Using Creative Adversarial Networks2023

Author(s)

Organizer

Related Report

[Presentation] Automatic Detection of Poor Tone Quality in Classical Guitar Playing Using Deep Anomaly Detection Method2023

Author(s)

Organizer

Related Report

[Presentation] real-time MRIで収録した調音運動に基づくend-to-end音声合成2023

Author(s)

Organizer

Related Report

[Presentation] real-time MRI 調音運動データからの end-to-end 音声合成2023

Author(s)

Organizer

Related Report

[Presentation] Vision Transformerの係数付き1bit化2023

Author(s)

Organizer

Related Report

[Presentation] RtMRIデータからの調音-音響変換における転置畳み込みニューラルネットワークの利用2022

Author(s)

Organizer

Related Report

[Presentation] Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案2022

Author(s)

Organizer

Related Report

桂田浩一東京理科大学, 創域理工学部情報計算科学科, 教授 (80324490)