• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

調音運動データベースの構築とデータベース間の正規化および調音運動ベースの音声合成

Research Project

Project/Area Number 19K12024
Research InstitutionTokyo University of Science

Principal Investigator

桂田 浩一  東京理科大学, 理工学部情報科学科, 准教授 (80324490)

Co-Investigator(Kenkyū-buntansha) 牧野 武彦  中央大学, 経済学部, 教授 (00269482)
若宮 幸平  九州大学, 芸術工学研究院, 助教 (70294999)
Project Period (FY) 2019-04-01 – 2022-03-31
Keywords調音運動 / EMA / 音声合成 / IPA
Outline of Annual Research Achievements

2019年度には(1)日本語調音運動データベースの構築,および(2)調音運動からの音声合成の研究に取り組んだ.
まず(1)については,新たに2名のデータを収録するとともに,これまでに収録していた1名分の単音ラベリングを開始した.新たに収録した2名のうち1名は従来(日本語503文+英文23文)と比べて多くの文(日本語の短文1000文程度を追加)を収録している.
(2)については,多人数話者の調音運動を対象に,話者非依存の音声合成モデルを構築することを目指した.多人数話者の合成モデルを構築するために,40名の話者の調音運動を収録した既存のデータベースであるEMA-MAEデータベースを用いた.音声合成のモデルには,近年の調音運動からの音声合成で良好な性能を示しているBLSTM(Bi-directional Long Short-Term Memory)をベースに,ドメイン敵対的学習や2ステージネットワークの導入によって性能の改善を図った.2ステージネットワークの1ステージ目では話者正規化のために全話者の平均の調音運動を出力するようネットワークを学習しており,その性能向上のために機械学習の分野で有効性の確認されているドメイン敵対的学習を用いた.また,1ステージ目で生成した話者非依存な調音運動に対して,2ステージ目で話者性を表す情報を付加することで,多人数話者音声合成を実現した.実験の結果,話者オープンの音声合成の結果は十分でなかったものの,話者クローズの音声合成では単純なBLSTMと比較して十分な改善が見られた.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究課題の2019年度の目標は次の3項目である.(1)日本語調音運動データベースの構築(調音運動の収録,単音ラベリング),(2)調音運動データベース間の正規化(同一話者,異なるコイル間),(3)調音運動ベースの音声合成(調音運動→合成音声),のそれぞれを実施する計画を立てていた.
このうち(1)については当初の予定通りの内容で実施した.(2)と(3)については独立して実施せず,多人数話者の調音運動からの音声合成という形で,一つのシステム内で実施した.2ステージネットワークの第1ステージが(2)の役割を果たし,第2ステージが(3)の役割を果たしている.実験において良好な音声が合成されたことから,2019年度の目標は十分達成できたと考えている.

Strategy for Future Research Activity

2019年度は予定通りに目標が達成できたことから,2020年度も当初の目標の通りに実施する予定である.

Causes of Carryover

3月に参加予定の複数の会議がオンライン化されたため,出張旅費が未使用となった.2020年度にデータベース収録者を追加する形で経費を使用する予定である.

  • Research Products

    (6 results)

All 2020 2019

All Presentation (6 results)

  • [Presentation] マルチモーダル音声強調に対するCycle-Consistencyの導入の検討2020

    • Author(s)
      池上 凌,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2020年春季研究発表会,3-P-3 (2020-3)
  • [Presentation] StarGAN-VCモデルにおける潜在表現への制約の有効性について2020

    • Author(s)
      柴宮 怜,大村 英史,桂田 浩一
    • Organizer
      日本音響学会2020年春季研究発表会,3-P-39 (2020-3)
  • [Presentation] 大規模日本語調音・音声パラレルデータの収集2019

    • Author(s)
      若宮幸平,田口史朗,渡辺莉子,桂田浩一,牧野武彦,鏑木時彦
    • Organizer
      電子情報通信学会技術報告vol. 119, no. 80, SP2019-2, pp. 7-12
  • [Presentation] 音声想起脳波からの言語表象抽出と音節認識2019

    • Author(s)
      深井 健大郎,大村 英史,桂田 浩一,平田 里佳,入部 百合絵,付 明川,田口 亮,新田 恒雄
    • Organizer
      電子情報通信学会技術研究報告,SP2019-28 (2019-10)
  • [Presentation] 音声想起時脳波中の音節識別について2019

    • Author(s)
      深井 健大郎,大村 英史,桂田 浩一,新田 恒雄
    • Organizer
      人工知能学会第33回全国大会,3P3-OS-20-04 (2019-6)
  • [Presentation] Universal Transformerを使用した対話破綻検出2019

    • Author(s)
      桑原 健太,大村 英史,桂田 浩一
    • Organizer
      人工知能学会第33回全国大会,4J3-J-13-01 (2019-6)

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi