複数の調音運動データを中間情報とするマルチモーダル音声合成
Project/Area Number |
22K12100
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Tokyo University of Science |
Principal Investigator |
桂田 浩一 東京理科大学, 創域理工学部情報計算科学科, 教授 (80324490)
|
Co-Investigator(Kenkyū-buntansha) |
若宮 幸平 九州大学, 芸術工学研究院, 助教 (70294999)
牧野 武彦 中央大学, 経済学部, 教授 (00269482)
|
Project Period (FY) |
2022-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2026: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2025: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
|
Keywords | 調音運動 / 音声合成 / EMA / rtMRI / マルチモーダル |
Outline of Research at the Start |
人間の発話メカニズムに近い音声生成法を実現するため,複数種類の調音運動データ(発 話時の舌や唇の動き)を中間情報として用いた「言語⇒調音運動⇒音声」の形のマルチモー ダル音声合成システムを開発する.
|
Outline of Annual Research Achievements |
本研究では,調音運動データを中間情報とするマルチモーダル音声合成システムの構築を目標に,①EMAデータベースの構築,②EMAデータからの音声合成法の検討,③言語からのEMAデータおよびrtMRIデータの生成,④マルチモーダル音声合成器としての統合を目指している.このうち2023年度には①のEMAデータベースの構築について,話者1名のEMAデータの収録を行い,データベース拡充を行った.また③について,言語からIPA(International Phonetic Alphabet)を通して調音運動データを生成する仕組みを検討した.さらに,④の構成要素となるrtMRIデータからの音声合成法について,rtMRIデータから音響特徴量を生成する手法及びrtMRIデータから音声を直接合成する手法をそれぞれ検討した. これらの成果のうち,③および④については日本音響学会秋季研究発表会,InterSpeech2023,および電子情報通信学会論文誌Dにおいてそれぞれ報告を行っている. [1] 大谷 祐人,澤田 隼,大村 英史,桂田 浩一:“MRI正中矢状断面画像からのF0推定の可能性について”,日本音響学会2023年春季研究発表会,2-9-13 (2023-9). [2] 丸山 虹樹,澤田 隼,大村 英史,桂田 浩一:“1次元畳み込みニューラルネットワークを用いたIPAからの調音運動データ生成”,日本音響学会2023年春季研究発表会,3-Q-38 (2023-9). [3] Yuto Otani, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada, "Speech Synthesis from Articulatory Movements Recorded by Real-time MRI", In Proc. InterSpeech2023, pp.127-131 (2023-8). [4] 丹治 涼,大村 英史,澤田 隼,桂田 浩一:“RtMRIからの調音-音響変換における転置畳み込みニューラルネットワークの利用”,電子情報通信学会論文誌D,Vol.J106-D,No.10,pp.470-479 (2023-10).
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
5年間の研究機関のうち2年が終了し,①のEMAデータのデータベース化については概ね人数分の収録を終えることができた.②~④についても順調に成果が出ており,特に④の構成要素の一部となるrtMRIからの音声合成についてはトップカンファレンスでの発表および学術論文での成果発表を行っている.以上より,本プロジェクトはおおむね順調に進展しているといえる.
|
Strategy for Future Research Activity |
2024年度は①についてはこれまでに収録したEMAデータを精査し,データベースに格納可能なデータを厳選する予定である.その後,データベースに格納するデータについて,同時収録した音声に対するIPAのラベリングを行う予定である.2024年度中にデータベースのフォーマット等を決定した後に今年度,もしくは来年度での公開を目指す.②~④については,引き続き検討を行い,日本音響学会研究発表会,InterSpeech,ICASSP,日本音響学会論文誌での成果報告を行う予定である.
|
Report
(2 results)
Research Products
(13 results)