2022 年度研究成果報告書

調音運動データベースの構築とデータベース間の正規化および調音運動ベースの音声合成

研究課題

PDF

研究課題/領域番号	19K12024
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	東京理科大学
研究代表者	桂田浩一東京理科大学, 理工学部情報科学科, 教授 (80324490)
研究分担者	牧野武彦中央大学, 経済学部, 教授 (00269482) 若宮幸平九州大学, 芸術工学研究院, 助教 (70294999)
研究期間 (年度)	2019-04-01 – 2023-03-31
キーワード	EMA / 調音運動 / 音声合成 / rtMRI
研究成果の概要	(1)EMAデータからの音声合成，(2)rtMRIデータからの音声合成，(3)調音運動データの収録，についてそれぞれ研究を実施した．(1)については，LSTMとD-vectorによる話者識別器を用いた多人数話者用の音声合成器を構築し，特に話者closeの合成については十分な合成音が生成できることを確認した．(2)はtransposed convolutionによる時系列データの補間を用いた合成器を構築し，ストライドサイズを大きくして補間強度を強くしたときに合成音の品質が向上することを確認した．(3)については7名分の調音運動データの収録を終えており，そのうち1名についてIPAの付与が完了した．
自由記述の分野	音声情報処理
研究成果の学術的意義や社会的意義	本研究によって，舌や唇の動きを表す調音運動から音声が良好に生成できることが確認できた．収録方法の異なる2種類の調音運動データ（EMA，rtMRI）の双方で生成できることを確認しており，当該分野の研究進展に微力ながら貢献できたと考えている．調音運動のデータは一般的に収録が困難ではあるが，本研究で日本語用の調音運動データを収録することによって，音声学や音声情報処理の研究分野において調音運動データを利用することが可能になった．これにより，音声学および音声情報処理の発展に多少なりとも寄与できたと考えている．