研究課題/領域番号 |
19K12024
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 東京理科大学 |
研究代表者 |
桂田 浩一 東京理科大学, 理工学部情報科学科, 教授 (80324490)
|
研究分担者 |
牧野 武彦 中央大学, 経済学部, 教授 (00269482)
若宮 幸平 九州大学, 芸術工学研究院, 助教 (70294999)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | EMA / 調音運動 / 音声合成 / rtMRI / IPA / データベース構築 / 深層学習 / データベース |
研究開始時の研究の概要 |
人間の発声メカニズムに近い音声合成を実現するため,次の3項目の研究を実施する. (I)人間の発話時の舌や唇の動作を収録しデータベースを作成する. (II)既存の外国語のこうしたデータベースとの相互変換を可能にする. (III)データベースを用いて音声合成の研究を行う. これまで日本語のこのようなデータベースは公開された物が存在しなかった.したがってこうしたデータベースを公開することの意義は大きい.
|
研究成果の概要 |
(1)EMAデータからの音声合成,(2)rtMRIデータからの音声合成,(3)調音運動データの収録,についてそれぞれ研究を実施した.(1)については,LSTMとD-vectorによる話者識別器を用いた多人数話者用の音声合成器を構築し,特に話者closeの合成については十分な合成音が生成できることを確認した.(2)はtransposed convolutionによる時系列データの補間を用いた合成器を構築し,ストライドサイズを大きくして補間強度を強くしたときに合成音の品質が向上することを確認した.(3)については7名分の調音運動データの収録を終えており,そのうち1名についてIPAの付与が完了した.
|
研究成果の学術的意義や社会的意義 |
本研究によって,舌や唇の動きを表す調音運動から音声が良好に生成できることが確認できた.収録方法の異なる2種類の調音運動データ(EMA,rtMRI)の双方で生成できることを確認しており,当該分野の研究進展に微力ながら貢献できたと考えている.調音運動のデータは一般的に収録が困難ではあるが,本研究で日本語用の調音運動データを収録することによって,音声学や音声情報処理の研究分野において調音運動データを利用することが可能になった.これにより,音声学および音声情報処理の発展に多少なりとも寄与できたと考えている.
|