• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

調音運動データベースの構築とデータベース間の正規化および調音運動ベースの音声合成

Research Project

Project/Area Number 19K12024
Research InstitutionTokyo University of Science

Principal Investigator

桂田 浩一  東京理科大学, 理工学部情報科学科, 准教授 (80324490)

Co-Investigator(Kenkyū-buntansha) 牧野 武彦  中央大学, 経済学部, 教授 (00269482)
若宮 幸平  九州大学, 芸術工学研究院, 助教 (70294999)
Project Period (FY) 2019-04-01 – 2022-03-31
Keywords音声合成 / 調音運動 / データベース構築 / 深層学習
Outline of Annual Research Achievements

2020年度は次の各項目について取り組んだ:(1)日本語調音運動データベースの構築,(2)調音運動からの音声合成の研究,(3)テキストから調音運動を生成するための予備実験,(4)rtMRIデータからの音声合成.
まず(1)については,新たに1名のデータを収録するとともに,これまでに収録していた1名分の単音ラベリングを前年度に引き続き行った.コロナ禍の影響で収録の機会が十分に得られず,収録のペースを落とさざるを得なかった.
(2)については,前年度に引き続きEMA-MAEデータベースを用いたシステムを構築し,評価実験を行った.音声合成のモデルには,前年度に導入したBLSTM(Bi-directional Long Short-Term Memory)とドメイン敵対的学習,2ステージネットワークを用いた深層学習器を用いた.また,評価実験の結果が良好であったことから,成果をInterSpeech2020において発表した.
(3)については,テキストからIPA(国際音声記号)を経由して調音運動を生成するシステムの構築を目指して,テキストからIPAを生成する深層学習器を用いたシステムを予備的に構築し,評価した.
以上,(1)~(3)については調音運動としてEMA(Electromagnetic Articulography)を用いたが,これに加えて(4)では,rtMRIにより取得された声道断面の動画像データから音声を合成する方法を提案した.rtMRIの動画像データは時間解像度が低いという特徴を持つため,音声合成のモデルとしては,時間解像度を向上する超解像処理を行うことができるTransposed Convolutional Neural Networkを基本とする深層学習器を用いた.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

研究実績の概要で示した(2)~(4)に該当する調音運動からの音声合成,及びその関連研究については予定以上の進捗で進んでいる.特に,(2)および(4)については当初の目標と比べて高い性能の音声合成器を得ることができており,十分な成果が上がっているといえる.
一方,研究実績の概要の項目(1)の調音運動データベースの収録については,密な環境での被験者との接触が避けられないため,コロナ禍の影響で十分に収録の機会を得ることができなかった.2019年度には2名の収録を実施できたが,2020年度には1名の収録を行ったに留まった.
以上から,データベース収録を除く研究開発については予定以上に進捗が進んでいる一方,データベース構築に関しては進捗状況が遅れていることから,全体として「おおむね順調に進展している」という評価とした.

Strategy for Future Research Activity

現時点で十分に進捗が進んでいる音声合成システムの開発については,2021年度も引き続きその性能向上を目指す.
また,2020年度時点で若干進捗が遅れているデータベース構築については,2021年度に収録人数の増加を検討するが,コロナウィルスの蔓延状況によっては2021年度も十分な収録が行えない可能性がある.この場合,データベース公開の延期も考慮に入れて収録作業を進めていきたい.

Causes of Carryover

データベースの収集が十分に進捗したかったため,被験者の依頼に係る諸費用を2021年度に持ち越すことになった.

  • Research Products

    (7 results)

All 2021 2020

All Presentation (7 results) (of which Int'l Joint Research: 2 results)

  • [Presentation] 事前学習したvq-wav2vecの音声特徴表現を用いたボコーダフリーのAny-to-Many音声変換2021

    • Author(s)
      越塚 毅,大村 英史,桂田 浩一
    • Organizer
      電子情報通信学会技術報告
  • [Presentation] real-time MRI 動画像を用いた音声合成システムの作成2021

    • Author(s)
      丹治 涼,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2021年春季研究発表会
  • [Presentation] IPA を介した音素-調音データ変換のための音素-IPA 変換手法の検討2021

    • Author(s)
      飯山 智晴,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2021年春季研究発表会
  • [Presentation] Speaker-Independent Mel-Cepstrum Estimation from Articulator Movements Using D-Vector Input2020

    • Author(s)
      Kouichi Katsurada, Korin Richmond
    • Organizer
      InterSpeech2020
    • Int'l Joint Research
  • [Presentation] Expectation-based parsing for Jazz Chord sequences2020

    • Author(s)
      Yuta Ogura, Hidefumi Ohmura, Yui Uehara, Satoshi Tojo, Kouichi Katsurada
    • Organizer
      SMC2020
    • Int'l Joint Research
  • [Presentation] Cycle-Consistency を利用したマルチモーダル音声強調システムの各種ノイズに対する効果の検証2020

    • Author(s)
      池上 凌,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2020年秋季研究発表会
  • [Presentation] BLSTM を用いた音素-調音変換2020

    • Author(s)
      飯山 智晴,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2020年秋季研究発表会

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi