• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Construction of articulatory movement database, normalization of databases, and speech synthesis based on the database

Research Project

Project/Area Number 19K12024
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61010:Perceptual information processing-related
Research InstitutionTokyo University of Science

Principal Investigator

Katsurada Kouichi  東京理科大学, 理工学部情報科学科, 教授 (80324490)

Co-Investigator(Kenkyū-buntansha) 牧野 武彦  中央大学, 経済学部, 教授 (00269482)
若宮 幸平  九州大学, 芸術工学研究院, 助教 (70294999)
Project Period (FY) 2019-04-01 – 2023-03-31
Project Status Completed (Fiscal Year 2022)
Budget Amount *help
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2019: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
KeywordsEMA / 調音運動 / 音声合成 / rtMRI / IPA / データベース構築 / 深層学習 / データベース
Outline of Research at the Start

人間の発声メカニズムに近い音声合成を実現するため,次の3項目の研究を実施する.
(I)人間の発話時の舌や唇の動作を収録しデータベースを作成する.
(II)既存の外国語のこうしたデータベースとの相互変換を可能にする.
(III)データベースを用いて音声合成の研究を行う.
これまで日本語のこのようなデータベースは公開された物が存在しなかった.したがってこうしたデータベースを公開することの意義は大きい.

Outline of Final Research Achievements

We developed (1) a speech synthesis system from EMA data, (2) a speech synthesis system from rtMRI data, and built (3) an articulatory movement database using EMA. The speech synthesis system from EMA data is constructed for multiple speakers using LSTM and D-vector, and we confirmed it can generate sufficient synthesized sounds, especially for speaker-close synthesis. For speech synthesis from rtMRI data, we used transposed convolution which interpolates time series data, and the results showed the quality improved when the stride size is increased. As for articulatory database, we have completed the recording of articulatory movement data for seven persons, and IPA assignment has been completed for one of them.

Academic Significance and Societal Importance of the Research Achievements

本研究によって,舌や唇の動きを表す調音運動から音声が良好に生成できることが確認できた.収録方法の異なる2種類の調音運動データ(EMA,rtMRI)の双方で生成できることを確認しており,当該分野の研究進展に微力ながら貢献できたと考えている.調音運動のデータは一般的に収録が困難ではあるが,本研究で日本語用の調音運動データを収録することによって,音声学や音声情報処理の研究分野において調音運動データを利用することが可能になった.これにより,音声学および音声情報処理の発展に多少なりとも寄与できたと考えている.

Report

(5 results)
  • 2022 Annual Research Report   Final Research Report ( PDF )
  • 2021 Research-status Report
  • 2020 Research-status Report
  • 2019 Research-status Report
  • Research Products

    (22 results)

All 2023 2022 2021 2020 2019

All Presentation (22 results) (of which Int'l Joint Research: 4 results)

  • [Presentation] real-time MRIで収録した調音運動に基づくend-to-end音声合成2023

    • Author(s)
      大谷 祐人,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      電子情報通信学会技術報告SP2022-41
    • Related Report
      2022 Annual Research Report
  • [Presentation] real-time MRI 調音運動データからの end-to-end 音声合成2023

    • Author(s)
      大谷 祐人,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2023年春季研究発表会
    • Related Report
      2022 Annual Research Report
  • [Presentation] Vision Transformerの係数付き1bit化2023

    • Author(s)
      佐藤 駿,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      電子情報通信学会技術報告IBISML2022-90
    • Related Report
      2022 Annual Research Report
  • [Presentation] RtMRIデータからの調音-音響変換における転置畳み込みニューラルネットワークの利用2022

    • Author(s)
      丹治 涼,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      日本音響学会音声研究会,電子情報通信学会技術報告EA2022-27
    • Related Report
      2022 Annual Research Report
  • [Presentation] Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案2022

    • Author(s)
      青木 伸和,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      電子情報通信学会技術報告SP2022-28
    • Related Report
      2022 Annual Research Report
  • [Presentation] Fine-tuning pre-trained voice conversion model for adding new target speakers with limited data2021

    • Author(s)
      Takeshi Koshizuka, Hidefumi Ohmura, Kouichi Katsurada
    • Organizer
      InterSpeech2021
    • Related Report
      2021 Research-status Report
    • Int'l Joint Research
  • [Presentation] Using Transposed Convolution for Articulatory-to-Acoustic Conversion from Real-Time MRI Data2021

    • Author(s)
      Ryo Tanji, Hidehumi Ohmura, Kouichi Katsurada
    • Organizer
      InterSpeech2021
    • Related Report
      2021 Research-status Report
    • Int'l Joint Research
  • [Presentation] 転置畳み込みニューラルネットワークを用いたrtMRIデータからの調音-音響変換2021

    • Author(s)
      丹治 涼,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      言語資源活用ワークショップ発表論文集,vol.6
    • Related Report
      2021 Research-status Report
  • [Presentation] IPA を介した音素-調音データ変換のためのIPA 継続長推定手法の検討2021

    • Author(s)
      飯山 智晴,澤田 隼,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2021年秋季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 事前学習したvq-wav2vecの音声特徴表現を用いたボコーダフリーのAny-to-Many音声変換2021

    • Author(s)
      越塚 毅,大村 英史,桂田 浩一
    • Organizer
      電子情報通信学会技術報告
    • Related Report
      2020 Research-status Report
  • [Presentation] real-time MRI 動画像を用いた音声合成システムの作成2021

    • Author(s)
      丹治 涼,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2021年春季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] IPA を介した音素-調音データ変換のための音素-IPA 変換手法の検討2021

    • Author(s)
      飯山 智晴,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2021年春季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] Speaker-Independent Mel-Cepstrum Estimation from Articulator Movements Using D-Vector Input2020

    • Author(s)
      Kouichi Katsurada, Korin Richmond
    • Organizer
      InterSpeech2020
    • Related Report
      2020 Research-status Report
    • Int'l Joint Research
  • [Presentation] Expectation-based parsing for Jazz Chord sequences2020

    • Author(s)
      Yuta Ogura, Hidefumi Ohmura, Yui Uehara, Satoshi Tojo, Kouichi Katsurada
    • Organizer
      SMC2020
    • Related Report
      2020 Research-status Report
    • Int'l Joint Research
  • [Presentation] Cycle-Consistency を利用したマルチモーダル音声強調システムの各種ノイズに対する効果の検証2020

    • Author(s)
      池上 凌,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2020年秋季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] BLSTM を用いた音素-調音変換2020

    • Author(s)
      飯山 智晴,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2020年秋季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] マルチモーダル音声強調に対するCycle-Consistencyの導入の検討2020

    • Author(s)
      池上 凌,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2020年春季研究発表会,3-P-3 (2020-3)
    • Related Report
      2019 Research-status Report
  • [Presentation] StarGAN-VCモデルにおける潜在表現への制約の有効性について2020

    • Author(s)
      柴宮 怜,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2020年春季研究発表会,3-P-39 (2020-3)
    • Related Report
      2019 Research-status Report
  • [Presentation] 大規模日本語調音・音声パラレルデータの収集2019

    • Author(s)
      若宮幸平,田口史朗,渡辺莉子,桂田浩一,牧野武彦,鏑木時彦
    • Organizer
      電子情報通信学会技術報告vol. 119, no. 80, SP2019-2, pp. 7-12
    • Related Report
      2019 Research-status Report
  • [Presentation] 音声想起脳波からの言語表象抽出と音節認識2019

    • Author(s)
      深井 健大郎,大村 英史,桂田 浩一,平田 里佳,入部 百合絵,付 明川,田口 亮,新田 恒雄
    • Organizer
      電子情報通信学会技術研究報告,SP2019-28 (2019-10)
    • Related Report
      2019 Research-status Report
  • [Presentation] 音声想起時脳波中の音節識別について2019

    • Author(s)
      深井 健大郎,大村 英史,桂田 浩一,新田 恒雄
    • Organizer
      人工知能学会第33回全国大会,3P3-OS-20-04 (2019-6)
    • Related Report
      2019 Research-status Report
  • [Presentation] Universal Transformerを使用した対話破綻検出2019

    • Author(s)
      桑原 健太,大村 英史,桂田 浩一
    • Organizer
      人工知能学会第33回全国大会,4J3-J-13-01 (2019-6)
    • Related Report
      2019 Research-status Report

URL: 

Published: 2019-04-18   Modified: 2024-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi