2023 年度実績報告書

ビスポーク音声デザインの骨格形成と体系化

研究課題

研究課題/領域番号	21H04900
研究機関	明治大学
研究代表者	森勢将雅明治大学, 総合数理学部, 専任准教授 (60510013)
研究分担者	田中章浩東京女子大学, 現代教養学部, 教授 (80396530) 齋藤大輔東京大学, 大学院工学系研究科(工学部), 准教授 (40615150) 高道慎之介東京大学, 大学院情報理工学系研究科, 講師 (90784330)
研究期間 (年度)	2021-04-05 – 2025-03-31
キーワード	音声情報処理 / 音声合成 / 声質変換 / 音声知覚 / 音声デザイン
研究実績の概要	2023年度は，ビスポーク音声デザインのプロトタイプとして，点ピッチの考え方に基づき，モーラ単位でピッチ情報粗く制御できつつ自然な音声を生成可能なDNN音声合成を実装した．ピッチ制御についてはピッチ軌跡そのものをデザインすることも可能であるが，「ビスポーク」的なデザイン法として，ユーザーは大雑把なピッチ情報のみ与えることを重視している．合成音声の品質と目的のイントネーションを再現できるかについて主観評価を実施し，提案する方法が既存の方法よりも高い性能であることを確認した．次いで，音声デザインインタフェースの検討として，音声の分析からサポートするGUIについて検討を進めた．このGUIは，音声研究の専門家に向けて全てのパラメータを細かくチューニングできるものではなく，音声加工の初心者が試行錯誤的にピッチなどを加工できることをコンセプトとしている．様々な環境で多くの被験者に対する利用実績とフィードバックに基づいて改良を加えたものを暫定的なインタフェースとして採用した．本GUIについては学術論文として採録された．最後に，新たな音声評価法について検討した．現時点での音声合成の音質評価では，多くの論文でMOS (mean opinion score)が採用されている．MOSによる主観評価では音質差の検出力が低いため，特に合成音声の品質向上が著しく昨今では膨大な被験者数に基づく評価事例が増えつつあり，評価にかかるコストが増大している．そこで本課題では，新たに高品質な合成音声に対し，MOSよりも少人数で差の検出が可能な方法を提案した．同じ音声群を用いた評価をMOSと提案法とで実施し，同人数の評価結果であれば提案法のほうが差をより顕著に検出できることを確認した．上記が代表的な成果であるが，合成音声，音声コーパス作成，声質変換，音声知覚実験に関する成果報告も多数実施してきた．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由目標とする音声デザインの技術的な課題について，ピッチ情報について最低限の条件をクリアしたプロトタイプの構築を完了した．音声デザインに向けたインタフェース開発も論文として採録されており，当初定めた目標は順調に達成しつつある．加えて，コーパス構築，声質変換，音声知覚評価など多面的な取り組みを実施し，それぞれについて学会で発表するなど幅広く研究を進めていると考えている．
今後の研究の推進方策	本プロジェクトは2024年度が最終年度であるため，これまで検討してきた様々な内容について，国際会議発表や学術論文として採録されることを目指す．具体的に，ビスポーク音声デザインのプロトタイプは簡単な評価を実施しているにとどまっており，学会でプロトタイプを発表するのみである．同様に，他の検討内容も学術論文に至っていないものが複数ある．学術論文にするためには新たに大規模な主観評価実験を必要とするため，本年度の序盤は主観評価を中心に実施し，査読付きの国際会議や学術論文に投稿し，採録されることを目指す．

研究成果
(42件)

すべて 2024 2023 その他

すべて雑誌論文 (11件) (うち査読あり 10件、オープンアクセス 6件) 学会発表 (29件) (うち国際学会 4件、招待講演 1件) 備考 (2件)

[雑誌論文] Interactive tools for making vocoder-based signal processing accessible: Flexible manipulation of speech attributes for explorational research and education2024
- 著者名/発表者名
  Kawahara Hideki、Morise Masanori
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 45 ページ: 48～51
- DOI
  10.1250/ast.e23.52
- 査読あり / オープンアクセス
[雑誌論文] ヒューマンコミュニケーション研究から見る未来のかたち2024
- 著者名/発表者名
  新井田統、小森智康、酒向慎司、田中章浩、布川清彦
- 雑誌名
  
  電子情報通信学会誌
  
  巻: 107 ページ: 237～243
[雑誌論文] Emotion-controllable Speech Synthesis Using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence2024
- 著者名/発表者名
  Luo Xuan、Takamichi Shinnosuke、Saito Yuki、Koriyama Tomoki、Saruwatari Hiroshi
- 雑誌名
  
  APSIPA Transactions on Signal and Information Processing
  
  巻: 13 ページ: 1～30
- DOI
  10.1561/116.00000242
- 査読あり / オープンアクセス
[雑誌論文] Parameter representation of group delay towards glottal-flow-based phase manipulation for channel vocoder2023
- 著者名/発表者名
  Koguchi Junya、Morise Masanori、Kawahara Hideki
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 44 ページ: 189～192
- DOI
  10.1250/ast.44.189
- 査読あり / オープンアクセス
[雑誌論文] Effects of Humans’ and Robots’ Multisensory Emotional Expressions by Body language and Voice on Human Altruistic Behavior2023
- 著者名/発表者名
  SAWADA Yoshiko、KAWAHARA Misako、TANAKA Akihiro
- 雑誌名
  
  Transactions of Japan Society of Kansei Engineering
  
  巻: 22 ページ: 405～416
- DOI
  10.5057/jjske.TJSKE-D-23-00024
- 査読あり / オープンアクセス
[雑誌論文] COCO-NUT: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-Based Control2023
- 著者名/発表者名
  Watanabe Aya、Takamichi Shinnosuke、Saito Yuki、Nakata Wataru、Xin Detai、Saruwatari Hiroshi
- 雑誌名
  
  Proc. ASRU
  
  巻: －ページ: 1～8
- DOI
  10.1109/ASRU57964.2023.10389693
- 査読あり / オープンアクセス
[雑誌論文] HumanDiffusion: diffusion model using perceptual gradients2023
- 著者名/発表者名
  Ueda Yota、Takamichi Shinnosuke、Saito Yuki、Takamune Norihiro、Saruwatari Hiroshi
- 雑誌名
  
  Proc. INTERSPEECH 2023
  
  巻: －ページ: 4264～4268
- DOI
  10.21437/Interspeech.2023-1680
- 査読あり / オープンアクセス
[雑誌論文] jaCappella Corpus: A Japanese a Cappella Vocal Ensemble Corpus2023
- 著者名/発表者名
  Nakamura Tomohiko、Takamichi Shinnosuke、Tanji Naoko、Fukayama Satoru、Saruwatari Hiroshi
- 雑誌名
  
  Proc. ICASSP 2023
  
  巻: －ページ: 1～5
- DOI
  10.1109/ICASSP49357.2023.10095569
- 査読あり
[雑誌論文] MID-Attribute Speaker Generation Using Optimal-Transport-Based Interpolation of Gaussian Mixture Models2023
- 著者名/発表者名
  Watanabe Aya、Takamichi Shinnosuke、Saito Yuki、Xin Detai、Saruwatari Hiroshi
- 雑誌名
  
  Proc. ICASSP 2023
  
  巻: －ページ: 1～5
- DOI
  10.1109/ICASSP49357.2023.10097113
- 査読あり
[雑誌論文] Visual Onoma-to-Wave: Environmental Sound Synthesis from Visual Onomatopoeias and Sound-Source Images2023
- 著者名/発表者名
  Ohnaka Hien、Takamichi Shinnosuke、Imoto Keisuke、Okamoto Yuki、Fujii Kazuki、Saruwatari Hiroshi
- 雑誌名
  
  Proc. ICASSP 2023
  
  巻: －ページ: 1～5
- DOI
  10.1109/ICASSP49357.2023.10096517
- 査読あり
[雑誌論文] VTTS: Visual-Text To Speech2023
- 著者名/発表者名
  Nakano Yoshifumi、Saeki Takaaki、Takamichi Shinnosuke、Sudoh Katsuhito、Saruwatari Hiroshi
- 雑誌名
  
  Proc. SLT 2023
  
  巻: －ページ: 936～942
- DOI
  10.1109/SLT54892.2023.10022739
- 査読あり
[学会発表] jMARS Recorder: コーパス朗読に特化した音声収録アプリの制作と検討2024
- 著者名/発表者名
  俣野文義
- 学会等名
  日本音響学会2024年春季研究発表会
[学会発表] 統計的基本周波数推定のためのデータ拡張の検討2024
- 著者名/発表者名
  小口純矢
- 学会等名
  日本音響学会2024年春季研究発表会
[学会発表] 音声モーフィングにおける自動対応付けの提案と品質評価2024
- 著者名/発表者名
  堀部貴紀
- 学会等名
  日本音響学会2024年春季研究発表会
[学会発表] 対照学習モデルによる音声-声質表現文の埋め込み表現獲得2024
- 著者名/発表者名
  渡邊亞椰
- 学会等名
  日本音響学会2024年春季研究発表会
[学会発表] 話者性を制御可能な音声合成のための話者埋め込み空間に関する実験的検討2024
- 著者名/発表者名
  森田湧大
- 学会等名
  電子情報通信学会音声研究会
[学会発表] テキストのない音声に対する自己教師あり学習モデルによる音声合成の分析～多言語活用を中心に～2024
- 著者名/発表者名
  朴浚鎔
- 学会等名
  電子情報通信学会音声研究会
[学会発表] 音源波形状に着目した地声-裏声変換と音源波パラメータの制御2024
- 著者名/発表者名
  岡田翔太
- 学会等名
  電子情報通信学会音声研究会
[学会発表] 音声エージェントの印象に合致する音声の加工強度の予測2024
- 著者名/発表者名
  宮本蓮
- 学会等名
  電子情報通信学会音声研究会
[学会発表] ChatGPTを活用した日本語コーパス文生成の基礎検討2023
- 著者名/発表者名
  石川真大
- 学会等名
  情報処理学会音楽情報科学研究会
[学会発表] DNN音声合成による嫌悪感情の表現と基礎評価2023
- 著者名/発表者名
  俣野文義
- 学会等名
  情報処理学会音楽情報科学研究会
[学会発表] モーラ単位で高さを制御可能な音声デザインを前提とした日本語テキスト音声合成システムの試作2023
- 著者名/発表者名
  森勢将雅
- 学会等名
  情報処理学会音楽情報科学研究会
[学会発表] 日本語嫌悪感情音声の音響特徴量解析2023
- 著者名/発表者名
  俣野文義
- 学会等名
  日本音響学会2023年秋季研究発表会
[学会発表] リファレンスを必要としない相対的な音質評価に向けたMUSHRA法の改良について2023
- 著者名/発表者名
  田鎖佑弥
- 学会等名
  日本音響学会2023年秋季研究発表会
[学会発表] Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット2023
- 著者名/発表者名
  渡邊亞椰
- 学会等名
  日本音響学会2023年秋季研究発表会
[学会発表] Are There Associations Between Voice and Color?2023
- 著者名/発表者名
  M. Kuwa
- 学会等名
  SARMAC XIV
- 国際学会
[学会発表] Multisensory emotion perception and its cultural differences2023
- 著者名/発表者名
  A. Tanaka
- 学会等名
  Cognitive Psychology Colloquium at Leiden University
- 国際学会 / 招待講演
[学会発表] Immigration Modulates Audiovisual Emotion Integration in Adults: The Effect of the Host Culture and Migration itself2023
- 著者名/発表者名
  A. K. Nakamura
- 学会等名
  The 21st International Multisensory Research Forum
- 国際学会
[学会発表] The Prototypical Expressions Can Facilitate the Perception of Various Positive Emotions through Face, Voice, and Touch2023
- 著者名/発表者名
  R. Oya
- 学会等名
  The 21st International Multisensory Research Forum
- 国際学会
[学会発表] アンドロイドロボットによる身体・音声表現からの高次感情の知覚2023
- 著者名/発表者名
  山本寿子
- 学会等名
  日本認知科学会第40回大会
[学会発表] Introduction of International Society for Research on Emotion (ISRE)2023
- 著者名/発表者名
  A. Tanaka
- 学会等名
  2023年度人工知能学会全国大会
[学会発表] 薬局における男性薬剤師の身だしなみが患者の信頼感に与える影響2023
- 著者名/発表者名
  高橋利供
- 学会等名
  日本社会薬学会第41年会
[学会発表] 音声合成システムの入力表現に関する分析的検討2023
- 著者名/発表者名
  朴浚鎔
- 学会等名
  日本音響学会2023年秋季研究発表会
[学会発表] 表現力の異なる話者埋め込み空間と主観的話者間類似度の比較2023
- 著者名/発表者名
  森田湧大
- 学会等名
  日本音響学会2023年秋季研究発表会
[学会発表] Integration of Throat Microphone Recording and Bandwidth Extension for Robust Assesment of L2 Speech2023
- 著者名/発表者名
  Yu Xu
- 学会等名
  日本音響学会2023年秋季研究発表会
[学会発表] Emotion transfer with controllable intensity for emotional speech synthesis based on self-supervised model2023
- 著者名/発表者名
  Wei Li
- 学会等名
  日本音響学会2023年秋季研究発表会
[学会発表] 知覚的話者間類似度との関連に着目した話者埋め込み空間の構成法の比較検討2023
- 著者名/発表者名
  森田湧大
- 学会等名
  電子情報通信学会音声研究会研究報告
[学会発表] Improvement of Tacotron2 text-to-speech model based on masking operation and positional attention mechanism2023
- 著者名/発表者名
  Tong Ma
- 学会等名
  電子情報通信学会音声研究会
[学会発表] Integration of Throat Microphone Recording and Bandwidth Extension for Robust Assessment of L2 Listening2023
- 著者名/発表者名
  Yu Xu
- 学会等名
  電子情報通信学会音声研究会
[学会発表] Self-supervised learning model based emotion transfer and intensity control technology for expressive speech synthesis2023
- 著者名/発表者名
  Wei Li
- 学会等名
  電子情報通信学会音声研究会
[備考] 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット
- URL
  https://sites.google.com/site/shinnosuketakamichi/research-topics/coconut_corpus
[備考] jaCappellaコーパス
- URL
  https://tomohikonakamura.github.io/jaCappella_corpus/

2023 年度 実績報告書

ビスポーク音声デザインの骨格形成と体系化

研究代表者

森勢 将雅 明治大学, 総合数理学部, 専任准教授 (60510013)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Interactive tools for making vocoder-based signal processing accessible: Flexible manipulation of speech attributes for explorational research and education2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] ヒューマンコミュニケーション研究から見る未来のかたち2024

著者名/発表者名

雑誌名

[雑誌論文] Emotion-controllable Speech Synthesis Using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] Parameter representation of group delay towards glottal-flow-based phase manipulation for channel vocoder2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Effects of Humans’ and Robots’ Multisensory Emotional Expressions by Body language and Voice on Human Altruistic Behavior2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] COCO-NUT: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-Based Control2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] HumanDiffusion: diffusion model using perceptual gradients2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] jaCappella Corpus: A Japanese a Cappella Vocal Ensemble Corpus2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] MID-Attribute Speaker Generation Using Optimal-Transport-Based Interpolation of Gaussian Mixture Models2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Visual Onoma-to-Wave: Environmental Sound Synthesis from Visual Onomatopoeias and Sound-Source Images2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] VTTS: Visual-Text To Speech2023

著者名/発表者名

雑誌名

DOI

[学会発表] jMARS Recorder: コーパス朗読に特化した音声収録アプリの制作と検討2024

著者名/発表者名

学会等名

[学会発表] 統計的基本周波数推定のためのデータ拡張の検討2024

著者名/発表者名

学会等名

[学会発表] 音声モーフィングにおける自動対応付けの提案と品質評価2024

著者名/発表者名

学会等名

[学会発表] 対照学習モデルによる音声-声質表現文の埋め込み表現獲得2024

著者名/発表者名

学会等名

[学会発表] 話者性を制御可能な音声合成のための話者埋め込み空間に関する実験的検討2024

著者名/発表者名

学会等名

[学会発表] テキストのない音声に対する自己教師あり学習モデルによる音声合成の分析 ～多言語活用を中心に～2024

著者名/発表者名

学会等名

[学会発表] 音源波形状に着目した地声-裏声変換と音源波パラメータの制御2024

著者名/発表者名

学会等名

[学会発表] 音声エージェントの印象に合致する音声の加工強度の予測2024

著者名/発表者名

学会等名

[学会発表] ChatGPTを活用した日本語コーパス文生成の基礎検討2023

著者名/発表者名

学会等名

[学会発表] DNN音声合成による嫌悪感情の表現と基礎評価2023

著者名/発表者名

学会等名

2023 年度実績報告書

森勢将雅明治大学, 総合数理学部, 専任准教授 (60510013)

[学会発表] テキストのない音声に対する自己教師あり学習モデルによる音声合成の分析～多言語活用を中心に～2024