研究課題/領域番号 |
22K12100
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 東京理科大学 |
研究代表者 |
桂田 浩一 東京理科大学, 理工学部情報科学科, 教授 (80324490)
|
研究分担者 |
若宮 幸平 九州大学, 芸術工学研究院, 助教 (70294999)
牧野 武彦 中央大学, 経済学部, 教授 (00269482)
|
研究期間 (年度) |
2022-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2026年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2025年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | rtMRI / 調音運動 / 音声合成 / マルチモーダル |
研究開始時の研究の概要 |
人間の発話メカニズムに近い音声生成法を実現するため,複数種類の調音運動データ(発 話時の舌や唇の動き)を中間情報として用いた「言語⇒調音運動⇒音声」の形のマルチモー ダル音声合成システムを開発する.
|
研究実績の概要 |
2022年度は主にrtMRI動画像データからの音声合成法について検討した. 本年度は特に,(1)rtMRI動画像からメルケプストラムのみを推定してworldボコーダによって音声を合成する方法と,(2)rtMRI動画像からメルスペクトログラムを推定してニューラルボコーダによって音声を合成する方法の2種類を検討した. (1)のメルケプストラムを推定する方法では声道形状パラメータ(口や舌の形)のみを推定し,声の高さを制御する声帯振動に相当するパラメータは同時収録した音声から取得していた.これに対して,(2)のメルスペクトログラムを推定する方法では声道形状パラメータに加えて声帯振動パラメータも推定することから声帯振動が撮影できないrtMRI動画像からは推定が困難であることが予想された. まず,(1)のメルケプストラムを推定する方法では,転置畳み込みニューラルネットワークの導入により時間分解能を向上し,音声を精度よく合成できることが確認できた.特に音素毎にメルケプストラムの精度を確認したところ,従来手法と比べて破裂音(/b/や/t/のように発音の直前に空気の流れを止めて発音する音)のメルケプストラム推定が良好に行えていることが確認でき,rtMRI動画像には含まれにくい閉鎖の瞬間を転置畳み込みニューラルネットワークで補完できていることが確認できた. (2)のメルスペクトログラムを推定する方法では,困難であると思われた声帯振動が良好に取得でき,合成音の基本周波数(声帯振動の周期に対応するパラメータ)が良好に取得できていることが確認できた.発声を声帯振動と声道形状で説明する従来のソース・フィルタモデルでは原理的に不可能であろう推定ができていることから,今後は良好に基本周波数が推定できた理由について分析を進める予定である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2022年度は主にrtMRI動画像データからの音声合成について検討した.rtMRI動画像からは声道形状の違いによる各音素の発音が良好に再現できており,また予想外ではあるが,rtMRI動画像に含まれていないはずの声帯振動から得られる声の高さも非常に良好に再現できていることが分かった. 以上から,本研究課題はおおむね順調に進展していると判断できる.
|
今後の研究の推進方策 |
2022年度は主にrtMRIデータからの音声合成を中心に検討を行ったが,2023年度以降はEMAからの音声合成も同時に検討を進め,複数の調音運動を用いた音声合成の実現を目指して各要素技術の開発に努める.
|