2022 Fiscal Year Research-status Report

複数の調音運動データを中間情報とするマルチモーダル音声合成

Research Project

Project/Area Number	22K12100
Research Institution	Tokyo University of Science
Principal Investigator	桂田浩一東京理科大学, 理工学部情報科学科, 教授 (80324490)
Co-Investigator(Kenkyū-buntansha)	若宮幸平九州大学, 芸術工学研究院, 助教 (70294999) 牧野武彦中央大学, 経済学部, 教授 (00269482) [Withdrawn]
Project Period (FY)	2022-04-01 – 2027-03-31
Keywords	rtMRI / 調音運動 / 音声合成
Outline of Annual Research Achievements	2022年度は主にrtMRI動画像データからの音声合成法について検討した．本年度は特に，(1)rtMRI動画像からメルケプストラムのみを推定してworldボコーダによって音声を合成する方法と，(2)rtMRI動画像からメルスペクトログラムを推定してニューラルボコーダによって音声を合成する方法の2種類を検討した． (1)のメルケプストラムを推定する方法では声道形状パラメータ（口や舌の形）のみを推定し，声の高さを制御する声帯振動に相当するパラメータは同時収録した音声から取得していた．これに対して，(2)のメルスペクトログラムを推定する方法では声道形状パラメータに加えて声帯振動パラメータも推定することから声帯振動が撮影できないrtMRI動画像からは推定が困難であることが予想された．まず，(1)のメルケプストラムを推定する方法では，転置畳み込みニューラルネットワークの導入により時間分解能を向上し，音声を精度よく合成できることが確認できた．特に音素毎にメルケプストラムの精度を確認したところ，従来手法と比べて破裂音（/b/や/t/のように発音の直前に空気の流れを止めて発音する音）のメルケプストラム推定が良好に行えていることが確認でき，rtMRI動画像には含まれにくい閉鎖の瞬間を転置畳み込みニューラルネットワークで補完できていることが確認できた． (2)のメルスペクトログラムを推定する方法では，困難であると思われた声帯振動が良好に取得でき，合成音の基本周波数（声帯振動の周期に対応するパラメータ）が良好に取得できていることが確認できた．発声を声帯振動と声道形状で説明する従来のソース・フィルタモデルでは原理的に不可能であろう推定ができていることから，今後は良好に基本周波数が推定できた理由について分析を進める予定である．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 2022年度は主にrtMRI動画像データからの音声合成について検討した．rtMRI動画像からは声道形状の違いによる各音素の発音が良好に再現できており，また予想外ではあるが，rtMRI動画像に含まれていないはずの声帯振動から得られる声の高さも非常に良好に再現できていることが分かった．以上から，本研究課題はおおむね順調に進展していると判断できる．
Strategy for Future Research Activity	2022年度は主にrtMRIデータからの音声合成を中心に検討を行ったが，2023年度以降はEMAからの音声合成も同時に検討を進め，複数の調音運動を用いた音声合成の実現を目指して各要素技術の開発に努める．
Causes of Carryover	2023年度は主に国際会議への出張旅費としての使途を予定している．

Research Products
(5 results)

All 2023 2022

All Presentation (5 results)

[Presentation] real-time MRIで収録した調音運動に基づくend-to-end音声合成2023
- Author(s)
  大谷祐人，澤田隼，大村英史，桂田浩一
- Organizer
  電子情報通信学会技術報告SP2022-41
[Presentation] real-time MRI 調音運動データからの end-to-end 音声合成2023
- Author(s)
  大谷祐人，澤田隼，大村英史，桂田浩一
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] Vision Transformerの係数付き1bit化2023
- Author(s)
  佐藤駿，澤田隼，大村英史，桂田浩一
- Organizer
  電子情報通信学会技術報告IBISML2022-90
[Presentation] RtMRIデータからの調音-音響変換における転置畳み込みニューラルネットワークの利用2022
- Author(s)
  丹治涼，澤田隼，大村英史，桂田浩一
- Organizer
  日本音響学会音声研究会，電子情報通信学会技術報告EA2022-27
[Presentation] Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案2022
- Author(s)
  青木伸和，澤田隼，大村英史，桂田浩一
- Organizer
  電子情報通信学会技術報告SP2022-28

2022 Fiscal Year Research-status Report

複数の調音運動データを中間情報とするマルチモーダル音声合成

Principal Investigator

桂田 浩一 東京理科大学, 理工学部情報科学科, 教授 (80324490)

Current Status of Research Progress

Reason

Research Products

[Presentation] real-time MRIで収録した調音運動に基づくend-to-end音声合成2023

Author(s)

Organizer

[Presentation] real-time MRI 調音運動データからの end-to-end 音声合成2023

Author(s)

Organizer

[Presentation] Vision Transformerの係数付き1bit化2023

Author(s)

Organizer

[Presentation] RtMRIデータからの調音-音響変換における転置畳み込みニューラルネットワークの利用2022

Author(s)

Organizer

[Presentation] Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案2022

Author(s)

Organizer

桂田浩一東京理科大学, 理工学部情報科学科, 教授 (80324490)