複数の調音運動データを中間情報とするマルチモーダル音声合成

研究課題

研究課題/領域番号	22K12100
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	東京理科大学
研究代表者	桂田浩一東京理科大学, 創域理工学部情報計算科学科, 教授 (80324490)
研究分担者	若宮幸平九州大学, 芸術工学研究院, 助教 (70294999) 牧野武彦中央大学, 経済学部, 教授 (00269482)
研究期間 (年度)	2022-04-01 – 2027-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2026年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2025年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
キーワード	調音運動 / 音声合成 / EMA / rtMRI / マルチモーダル
研究開始時の研究の概要	人間の発話メカニズムに近い音声生成法を実現するため，複数種類の調音運動データ（発話時の舌や唇の動き）を中間情報として用いた「言語⇒調音運動⇒音声」の形のマルチモーダル音声合成システムを開発する．
研究実績の概要	本研究では，調音運動データを中間情報とするマルチモーダル音声合成システムの構築を目標に，①EMAデータベースの構築，②EMAデータからの音声合成法の検討，③言語からのEMAデータおよびrtMRIデータの生成，④マルチモーダル音声合成器としての統合を目指している．このうち2023年度には①のEMAデータベースの構築について，話者1名のEMAデータの収録を行い，データベース拡充を行った．また③について，言語からIPA(International Phonetic Alphabet)を通して調音運動データを生成する仕組みを検討した．さらに，④の構成要素となるrtMRIデータからの音声合成法について，rtMRIデータから音響特徴量を生成する手法及びrtMRIデータから音声を直接合成する手法をそれぞれ検討した．これらの成果のうち，③および④については日本音響学会秋季研究発表会，InterSpeech2023，および電子情報通信学会論文誌Dにおいてそれぞれ報告を行っている． [1] 大谷祐人，澤田隼，大村英史，桂田浩一：“MRI正中矢状断面画像からのF0推定の可能性について”，日本音響学会2023年春季研究発表会，2-9-13 (2023-9)． [2] 丸山虹樹，澤田隼，大村英史，桂田浩一：“1次元畳み込みニューラルネットワークを用いたIPAからの調音運動データ生成”，日本音響学会2023年春季研究発表会，3-Q-38 (2023-9)． [3] Yuto Otani, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada, "Speech Synthesis from Articulatory Movements Recorded by Real-time MRI", In Proc. InterSpeech2023, pp.127-131 (2023-8). [4] 丹治涼，大村英史，澤田隼，桂田浩一：“RtMRIからの調音-音響変換における転置畳み込みニューラルネットワークの利用”，電子情報通信学会論文誌D，Vol.J106-D，No.10，pp.470-479 (2023-10)．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 5年間の研究機関のうち2年が終了し，①のEMAデータのデータベース化については概ね人数分の収録を終えることができた．②～④についても順調に成果が出ており，特に④の構成要素の一部となるrtMRIからの音声合成についてはトップカンファレンスでの発表および学術論文での成果発表を行っている．以上より，本プロジェクトはおおむね順調に進展しているといえる．
今後の研究の推進方策	2024年度は①についてはこれまでに収録したEMAデータを精査し，データベースに格納可能なデータを厳選する予定である．その後，データベースに格納するデータについて，同時収録した音声に対するIPAのラベリングを行う予定である．2024年度中にデータベースのフォーマット等を決定した後に今年度，もしくは来年度での公開を目指す．②～④については，引き続き検討を行い，日本音響学会研究発表会，InterSpeech，ICASSP，日本音響学会論文誌での成果報告を行う予定である．

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(13件)

すべて 2024 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (12件) (うち国際学会 4件)

[雑誌論文] RtMRIからの調音-音響変換における転置畳み込みニューラルネットワークの利用2023
- 著者名/発表者名
  丹治　涼、大村　英史、澤田　隼、桂田　浩一
- 雑誌名
  
  電子情報通信学会論文誌D 情報・システム
  
  巻: J106-D 号: 10 ページ: 470-479
- DOI
  10.14923/transinfj.2022JDP7045
- ISSN
  1880-4535, 1881-0225
- 年月日
  2023-10-01
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] Exploration of Causal Networks in Large-Scale Data Using Nonlinear Dimensionality Reduction2024
- 著者名/発表者名
  Shusuke Tohno, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada
- 学会等名
  NCSP2024
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Speech Synthesis from Articulatory Movements Recorded by Real-time MRI2023
- 著者名/発表者名
  Yuto Otani, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada
- 学会等名
  INTERSPEECH2023
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] MRI正中矢状断面画像からのF0推定の可能性について2023
- 著者名/発表者名
  大谷祐人，澤田隼，大村英史，桂田浩一
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 1次元畳み込みニューラルネットワークを用いたIPAからの調音運動データ生成2023
- 著者名/発表者名
  丸山虹樹，澤田隼，大村英史，桂田浩一
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] StarGANv2-VCへの2D-1-2D構造適用による精度変化の検証2023
- 著者名/発表者名
  杉本晃輔，澤田隼，大村英史，桂田浩一
- 学会等名
  日本音響学会2023年春季研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Novel Instrumental Sound Creation Using Creative Adversarial Networks2023
- 著者名/発表者名
  Hiroki Ito, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada
- 学会等名
  WASPAA2023
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Automatic Detection of Poor Tone Quality in Classical Guitar Playing Using Deep Anomaly Detection Method2023
- 著者名/発表者名
  Kenta Ogawa, Shun Sawada, Kouichi Katsurada, Hidehumi Ohmura
- 学会等名
  WASPAA2023
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] real-time MRIで収録した調音運動に基づくend-to-end音声合成2023
- 著者名/発表者名
  大谷祐人，澤田隼，大村英史，桂田浩一
- 学会等名
  電子情報通信学会技術報告SP2022-41
- 関連する報告書
  2022 実施状況報告書
[学会発表] real-time MRI 調音運動データからの end-to-end 音声合成2023
- 著者名/発表者名
  大谷祐人，澤田隼，大村英史，桂田浩一
- 学会等名
  日本音響学会2023年春季研究発表会
- 関連する報告書
  2022 実施状況報告書
[学会発表] Vision Transformerの係数付き1bit化2023
- 著者名/発表者名
  佐藤駿，澤田隼，大村英史，桂田浩一
- 学会等名
  電子情報通信学会技術報告IBISML2022-90
- 関連する報告書
  2022 実施状況報告書
[学会発表] RtMRIデータからの調音-音響変換における転置畳み込みニューラルネットワークの利用2022
- 著者名/発表者名
  丹治涼，澤田隼，大村英史，桂田浩一
- 学会等名
  日本音響学会音声研究会，電子情報通信学会技術報告EA2022-27
- 関連する報告書
  2022 実施状況報告書
[学会発表] Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案2022
- 著者名/発表者名
  青木伸和，澤田隼，大村英史，桂田浩一
- 学会等名
  電子情報通信学会技術報告SP2022-28
- 関連する報告書
  2022 実施状況報告書

複数の調音運動データを中間情報とするマルチモーダル音声合成

研究代表者

桂田 浩一 東京理科大学, 創域理工学部情報計算科学科, 教授 (80324490)

4,030千円 (直接経費: 3,100千円、間接経費: 930千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] RtMRIからの調音-音響変換における転置畳み込みニューラルネットワークの利用2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[学会発表] Exploration of Causal Networks in Large-Scale Data Using Nonlinear Dimensionality Reduction2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Speech Synthesis from Articulatory Movements Recorded by Real-time MRI2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] MRI正中矢状断面画像からのF0推定の可能性について2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 1次元畳み込みニューラルネットワークを用いたIPAからの調音運動データ生成2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] StarGANv2-VCへの2D-1-2D構造適用による精度変化の検証2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Novel Instrumental Sound Creation Using Creative Adversarial Networks2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Automatic Detection of Poor Tone Quality in Classical Guitar Playing Using Deep Anomaly Detection Method2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] real-time MRIで収録した調音運動に基づくend-to-end音声合成2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] real-time MRI 調音運動データからの end-to-end 音声合成2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Vision Transformerの係数付き1bit化2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] RtMRIデータからの調音-音響変換における転置畳み込みニューラルネットワークの利用2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案2022

著者名/発表者名

学会等名

関連する報告書

桂田浩一東京理科大学, 創域理工学部情報計算科学科, 教授 (80324490)