2019 年度実施状況報告書

調音運動データベースの構築とデータベース間の正規化および調音運動ベースの音声合成

研究課題

研究課題/領域番号	19K12024
研究機関	東京理科大学
研究代表者	桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490)
研究分担者	牧野武彦中央大学, 経済学部, 教授 (00269482) 若宮幸平九州大学, 芸術工学研究院, 助教 (70294999)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	調音運動 / EMA / 音声合成 / IPA
研究実績の概要	2019年度には(1)日本語調音運動データベースの構築，および(2)調音運動からの音声合成の研究に取り組んだ．まず(1)については，新たに2名のデータを収録するとともに，これまでに収録していた1名分の単音ラベリングを開始した．新たに収録した2名のうち1名は従来(日本語503文+英文23文)と比べて多くの文(日本語の短文1000文程度を追加)を収録している． (2)については，多人数話者の調音運動を対象に，話者非依存の音声合成モデルを構築することを目指した．多人数話者の合成モデルを構築するために，40名の話者の調音運動を収録した既存のデータベースであるEMA-MAEデータベースを用いた．音声合成のモデルには，近年の調音運動からの音声合成で良好な性能を示しているBLSTM(Bi-directional Long Short-Term Memory)をベースに，ドメイン敵対的学習や2ステージネットワークの導入によって性能の改善を図った．2ステージネットワークの1ステージ目では話者正規化のために全話者の平均の調音運動を出力するようネットワークを学習しており，その性能向上のために機械学習の分野で有効性の確認されているドメイン敵対的学習を用いた．また，1ステージ目で生成した話者非依存な調音運動に対して，2ステージ目で話者性を表す情報を付加することで，多人数話者音声合成を実現した．実験の結果，話者オープンの音声合成の結果は十分でなかったものの，話者クローズの音声合成では単純なBLSTMと比較して十分な改善が見られた．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究課題の2019年度の目標は次の3項目である．(1)日本語調音運動データベースの構築（調音運動の収録，単音ラベリング），(2)調音運動データベース間の正規化（同一話者，異なるコイル間），(3)調音運動ベースの音声合成（調音運動→合成音声），のそれぞれを実施する計画を立てていた．このうち(1)については当初の予定通りの内容で実施した．(2)と(3)については独立して実施せず，多人数話者の調音運動からの音声合成という形で，一つのシステム内で実施した．2ステージネットワークの第1ステージが(2)の役割を果たし，第2ステージが(3)の役割を果たしている．実験において良好な音声が合成されたことから，2019年度の目標は十分達成できたと考えている．
今後の研究の推進方策	2019年度は予定通りに目標が達成できたことから，2020年度も当初の目標の通りに実施する予定である．
次年度使用額が生じた理由	3月に参加予定の複数の会議がオンライン化されたため，出張旅費が未使用となった．2020年度にデータベース収録者を追加する形で経費を使用する予定である．

研究成果
(6件)

すべて 2020 2019

すべて学会発表 (6件)

[学会発表] マルチモーダル音声強調に対するCycle-Consistencyの導入の検討2020
- 著者名/発表者名
  池上凌，大村英史，桂田浩一
- 学会等名
  日本音響学会2020年春季研究発表会，3-P-3 (2020-3)
[学会発表] StarGAN-VCモデルにおける潜在表現への制約の有効性について2020
- 著者名/発表者名
  柴宮怜，大村英史，桂田浩一
- 学会等名
  日本音響学会2020年春季研究発表会，3-P-39 (2020-3)
[学会発表] 大規模日本語調音・音声パラレルデータの収集2019
- 著者名/発表者名
  若宮幸平，田口史朗，渡辺莉子，桂田浩一，牧野武彦，鏑木時彦
- 学会等名
  電子情報通信学会技術報告vol. 119, no. 80, SP2019-2, pp. 7-12
[学会発表] 音声想起脳波からの言語表象抽出と音節認識2019
- 著者名/発表者名
  深井健大郎，大村英史，桂田浩一，平田里佳，入部百合絵，付明川，田口亮，新田恒雄
- 学会等名
  電子情報通信学会技術研究報告，SP2019-28 (2019-10)
[学会発表] 音声想起時脳波中の音節識別について2019
- 著者名/発表者名
  深井健大郎，大村英史，桂田浩一，新田恒雄
- 学会等名
  人工知能学会第33回全国大会，3P3-OS-20-04 (2019-6)
[学会発表] Universal Transformerを使用した対話破綻検出2019
- 著者名/発表者名
  桑原健太，大村英史，桂田浩一
- 学会等名
  人工知能学会第33回全国大会，4J3-J-13-01 (2019-6)

2019 年度 実施状況報告書

調音運動データベースの構築とデータベース間の正規化および調音運動ベースの音声合成

研究代表者

桂田 浩一 東京理科大学, 理工学部情報科学科, 准教授 (80324490)

現在までの達成度 (区分)

理由

研究成果

[学会発表] マルチモーダル音声強調に対するCycle-Consistencyの導入の検討2020

著者名/発表者名

学会等名

[学会発表] StarGAN-VCモデルにおける潜在表現への制約の有効性について2020

著者名/発表者名

学会等名

[学会発表] 大規模日本語調音・音声パラレルデータの収集2019

著者名/発表者名

学会等名

[学会発表] 音声想起脳波からの言語表象抽出と音節認識2019

著者名/発表者名

学会等名

[学会発表] 音声想起時脳波中の音節識別について2019

著者名/発表者名

学会等名

[学会発表] Universal Transformerを使用した対話破綻検出2019

著者名/発表者名

学会等名

2019 年度実施状況報告書

桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490)