2021 Fiscal Year Research-status Report

調音運動データベースの構築とデータベース間の正規化および調音運動ベースの音声合成

Research Project

Project/Area Number	19K12024
Research Institution	Tokyo University of Science
Principal Investigator	桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490)
Co-Investigator(Kenkyū-buntansha)	牧野武彦中央大学, 経済学部, 教授 (00269482) 若宮幸平九州大学, 芸術工学研究院, 助教 (70294999)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	調音運動 / 音声合成 / EMA / IPA / rtMRI
Outline of Annual Research Achievements	2021年度は前年度に引き続き日本語調音運動データベースの構築を行うとともに，調音運動ベースの音声合成のための要素技術の検討を行った．日本語調音運動データベースについてはコロナウィルスの蔓延の影響で被験者によるデータ収録が十分に実施できず，2021年度内には1名の収録にとどまった．2020年度，2021年度とそれぞれ1名ずつの収録にとどまっており，また2021年度に収録したデータは被験者と収録機器の相性の問題で品質が十分でなかったため，現時点で当初の予定通りのデータベースが構築できていない．そこで本課題は2022年度に継続して実施することにした．調音運動ベースの音声合成の要素技術としては，テキストから調音運動を生成するための中間表現としてIPA(International Phonetic Alphabet)を用いる方法を検討している．IPAとは言語に依存せず決められている発音に関する世界共通の記号である．本研究課題では収録した音声に対してIPAラベリングを行っていることから，このIPAラベルを利用することによりテキストからIPAを生成することを試みた．2020年度にはテキストからIPAを推定する方法を検討したが，2021年度はIPAの継続長を求める課題に取り組んだ．更に，研究課題の目標の一つであった音声⇒調音運動のための予備的検討として，音声からrtMRI動画像を生成することを試みた．対外発表は行っていないものの概ね良好な結果が得られたことから，2022年度には更に検討を進めていきたい．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 調音運動データベースの収録については，上でも述べた通りコロナウィルス蔓延の影響で被験者による収録が十分に行えていない．話者の正規化については，当初の研究計画書に挙げていなかったrtMRIを用いた調音運動に関する検討を始めたことから，若干進捗に遅れが出ている．以上に述べた理由から，本課題の研究期間を1年間延長して調音運動データの収録および話者正規化に関する研究を継続することとした．調音運動を中間情報とする音声合成については，当初の予定通りテキストから調音運動の生成に関する検討を進めており，順調に進展している．音声から調音運動の生成についても2021年度から検討をはじめ，現時点では良好な結果が得られている．
Strategy for Future Research Activity	2021年度に引き続き，2022年度も調音運動データの収録を進める予定である．テキストからの調音運動生成については中間情報であるIPAから調音運動を生成する深層学習器を実装し，テキストから調音運動を生成する全体のシステムを完成させたい．また，これまで開発してきた，調音運動から音声を合成するシステムと組み合わせることによって，テキストから調音運動を中間情報として音声を合成するシステムを完成させたい．
Causes of Carryover	調音運動データベースを構築するための被験者への支払い，データ収録のための出張旅費，および消耗品の購入に使用する．

Research Products
(4 results)

All 2021

All Presentation (4 results) (of which Int'l Joint Research: 2 results)

[Presentation] Fine-tuning pre-trained voice conversion model for adding new target speakers with limited data2021
- Author(s)
  Takeshi Koshizuka, Hidefumi Ohmura, Kouichi Katsurada
- Organizer
  InterSpeech2021
- Int'l Joint Research
[Presentation] Using Transposed Convolution for Articulatory-to-Acoustic Conversion from Real-Time MRI Data2021
- Author(s)
  Ryo Tanji, Hidehumi Ohmura, Kouichi Katsurada
- Organizer
  InterSpeech2021
- Int'l Joint Research
[Presentation] 転置畳み込みニューラルネットワークを用いたrtMRIデータからの調音-音響変換2021
- Author(s)
  丹治涼，澤田隼，大村英史，桂田浩一
- Organizer
  言語資源活用ワークショップ発表論文集，vol.6
[Presentation] IPA を介した音素－調音データ変換のためのIPA 継続長推定手法の検討2021
- Author(s)
  飯山智晴，澤田隼，大村英史，桂田浩一
- Organizer
  日本音響学会2021年秋季研究発表会

2021 Fiscal Year Research-status Report

調音運動データベースの構築とデータベース間の正規化および調音運動ベースの音声合成

Principal Investigator

桂田 浩一 東京理科大学, 理工学部情報科学科, 准教授 (80324490)

Current Status of Research Progress

Reason

Research Products

[Presentation] Fine-tuning pre-trained voice conversion model for adding new target speakers with limited data2021

Author(s)

Organizer

[Presentation] Using Transposed Convolution for Articulatory-to-Acoustic Conversion from Real-Time MRI Data2021

Author(s)

Organizer

[Presentation] 転置畳み込みニューラルネットワークを用いたrtMRIデータからの調音-音響変換2021

Author(s)

Organizer

[Presentation] IPA を介した音素－調音データ変換のためのIPA 継続長推定手法の検討2021

Author(s)

Organizer

桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490)