2022 Fiscal Year Annual Research Report

ビスポーク音声デザインの骨格形成と体系化

Research Project

Project/Area Number	21H04900
Research Institution	Meiji University
Principal Investigator	森勢将雅明治大学, 総合数理学部, 専任准教授 (60510013)
Co-Investigator(Kenkyū-buntansha)	田中章浩東京女子大学, 現代教養学部, 教授 (80396530) 齋藤大輔東京大学, 大学院工学系研究科(工学部), 准教授 (40615150) 高道慎之介東京大学, 大学院情報理工学系研究科, 助教 (90784330)
Project Period (FY)	2021-04-05 – 2025-03-31
Keywords	音声情報処理 / 音声合成 / 声質変換 / 音声知覚 / 音声デザイン
Outline of Annual Research Achievements	2022年度は，2021年度に構築した音声データベースを用いて発話スタイルの音響特徴解析を行う研究や，音声デザインインタフェース開発を目指したGUIの試作，および様々な特徴を有する音声合成技術の研究等多面的な活動に取り組んだ．音声データベース用いたテキスト音声合成を実装することで，Deep learningベースの方法を用いた場合でも，データベースの量・質ともに問題が無いことを確認した．その後，音声デザインを重視した技術の実現を目指し，従来法の改良に取り組んだ．加えて，声優が意図的に変化させた発話スタイルが，音声の基本周波数やフォルマント周波数，および話速に影響を与えていることを確認した．コーパスの読みやすさを評価するため，2名の声優に4,600文のコーパスを朗読させ，全文のリテイク回数を記録し比較することで朗読が困難な文が無いか評価した．評価の結果，共通する文でリテイク数が増加する傾向は認められず，一文を構成するモーラ数とリテイク数が比例する傾向を確認した．音声分析や合成に関する研究では，避難呼びかけの音声の分析や合成，2話者の中間属性を有する音声の合成技術，およびささやき声の生成法などの実現を目指した研究を推進した．加えて，声質変換技術にも取り組み，Deep neural networks (DNN)による声質変換技術について論文を発表した．音声知覚についても，音声に対して知覚するポジティブ感情，および音声のみならず感情も含めた感情知覚に関する研究を推進した．音声デザインGUIについては，研究代表者の代表的な成果である音声分析合成基盤WORLDをGUIとして実装し，音声デザインインタフェース開発に向けた問題点の洗い出しに取り組んだ．現状では高さ（基本周波数）など物理量で近似できるパラメータの制御に絞り，柔軟に操作できることを優先してプロトタイプを実装した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 対面での主観評価の実施も滞りなくできるようになりつつあり，コロナ禍によりオンライン化を余儀なくされていた実験等の遅延問題はほぼ解消した．音声分析，合成，知覚，デザインに関する幅広い取り組みを実施しており，概ね順調な成果を上げつつあると評価している．
Strategy for Future Research Activity	引き続き，様々な感性情報を有する音声の分析，合成，知覚に関する研究を進める．加えて，音声デザインについては，目的とするビスポークデザインを実現するプロトタイプの研究開発に取り組む．具体的には，ユーザが厳密ではないリクエストを提示し，計算機がそこからリクエストを反映させて自然な音声を生成する技術の開発を目指す．デザインすべきパラメータ等は無数にあるため，ここでは基本周波数を対象とし，点ピッチパターンの考え方をデザインに取り入れることを目指す．

Research Products
(45 results)

All 2023 2022

All Journal Article (13 results) (of which Peer Reviewed: 13 results, Open Access: 10 results) Presentation (31 results) (of which Int'l Joint Research: 2 results, Invited: 3 results) Book (1 results)

[Journal Article] VTTS: Visual-Text To Speech2023
- Author(s)
  Nakano Yoshifumi、Saeki Takaaki、Takamichi Shinnosuke、Sudoh Katsuhito、Saruwatari Hiroshi
- Journal Title
  
  Proc. SLT 2023
  
  Volume: － Pages: 936～942
- DOI
  10.1109/SLT54892.2023.10022739
- Peer Reviewed
[Journal Article] Touch and voice have different advantages in perceiving positive and negative emotions2023
- Author(s)
  Oya Rika、Tanaka Akihiro
- Journal Title
  
  i-Perception
  
  Volume: 14 Pages: －
- DOI
  10.1177/20416695231160420
- Peer Reviewed / Open Access
[Journal Article] Voice Conversion Based on Deep Neural Networks for Time-Variant Linear Transformations2022
- Author(s)
  Kotani Gaku、Saito Daisuke、Minematsu Nobuaki
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 30 Pages: 2981～2992
- DOI
  10.1109/TASLP.2022.3205755
- Peer Reviewed / Open Access
[Journal Article] INmfCA Algorithm for Training of Nonparallel Voice Conversion Systems Based on Non-Negative Matrix Factorization2022
- Author(s)
  SUDA Hitoshi、KOTANI Gaku、SAITO Daisuke
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E105.D Pages: 1196～1210
- DOI
  10.1587/transinf.2021EDP7234
- Peer Reviewed / Open Access
[Journal Article] Text-to-speech synthesis using spectral modeling based on non-negative autoencoder2022
- Author(s)
  Gorai Takeru、Saito Daisuke、Minematsu Nobuaki
- Journal Title
  
  Proc. INTERSPEECH 2022
  
  Volume: － Pages: 1621～1625
- DOI
  10.21437/Interspeech.2022-10290
- Peer Reviewed / Open Access
[Journal Article] The interaction of emotional information from the voice and touch2022
- Author(s)
  Oya Rika、Tanaka Akihiro
- Journal Title
  
  Acoustical Science and Technology
  
  Volume: 43 Pages: 291～293
- DOI
  10.1250/ast.43.291
- Peer Reviewed / Open Access
[Journal Article] UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 20222022
- Author(s)
  Saeki Takaaki、Xin Detai、Nakata Wataru、Koriyama Tomoki、Takamichi Shinnosuke、Saruwatari Hiroshi
- Journal Title
  
  Proc. INTERSPEECH 2022
  
  Volume: － Pages: 4521～4525
- DOI
  10.21437/Interspeech.2022-439
- Peer Reviewed / Open Access
[Journal Article] J-MAC: Japanese multi-speaker audiobook corpus for speech synthesis2022
- Author(s)
  Takamichi Shinnosuke、Nakata Wataru、Tanji Naoko、Saruwatari Hiroshi
- Journal Title
  
  Proc. INTERSPEECH 2022
  
  Volume: － Pages: 2358～2362
- DOI
  10.21437/Interspeech.2022-444
- Peer Reviewed / Open Access
[Journal Article] SelfRemaster: Self-Supervised Speech Restoration with Analysis-by-Synthesis Approach Using Channel Modeling2022
- Author(s)
  Saeki Takaaki、Takamichi Shinnosuke、Nakamura Tomohiko、Tanji Naoko、Saruwatari Hiroshi
- Journal Title
  
  Proc. INTERSPEECH 2022
  
  Volume: － Pages: 4406～4410
- DOI
  10.21437/Interspeech.2022-298
- Peer Reviewed / Open Access
[Journal Article] Exploring the Effectiveness of Self-supervised Learning and Classifier Chains in Emotion Recognition of Nonverbal Vocalizations2022
- Author(s)
  Detai Xin, Shinnosuke Takamichi, and Saruwatari Hiroshi
- Journal Title
  
  Proc. ICML ExVo Workshop
  
  Volume: － Pages: －
- Peer Reviewed / Open Access
[Journal Article] レアなモーラを含む日本語歌唱データベースの構築と基礎評価2022
- Author(s)
  森勢将雅、藤本健、小岩井ことり
- Journal Title
  
  情報処理学会論文誌
  
  Volume: 63 Pages: 1523～1531
- DOI
  10.20729/00220098
- Peer Reviewed
[Journal Article] ROHAN：テキスト音声合成に向けたモーラバランス型日本語コーパス2022
- Author(s)
  森勢将雅
- Journal Title
  
  日本音響学会誌
  
  Volume: 79 Pages: 9～17
- DOI
  10.20697/jasj.79.1_9
- Peer Reviewed
[Journal Article] An objective test tool for pitch extractors' response attributes2022
- Author(s)
  Kawahara Hideki、Yatabe Kohei、Sakakibara Ken-Ichi、Kitamura Tatsuya、Banno Hideki、Morise Masanori
- Journal Title
  
  Proc. INTERSPEECH 2022
  
  Volume: － Pages: 659～663
- DOI
  10.21437/Interspeech.2022-800
- Peer Reviewed / Open Access
[Presentation] タッチ，音声，および表情からのポジティブ感情の知覚2023
- Author(s)
  大屋里佳，田中章浩
- Organizer
  第13回多感覚研究会
[Presentation] Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案2023
- Author(s)
  大中緋慧，高道慎之介，井本桂右，岡本悠希，藤井一貴，猿渡洋
- Organizer
  電子情報通信学会技術研究報告
[Presentation] 日本語音声合成におけるアクセント句韻律特徴量の表現と予測2023
- Author(s)
  佐藤匡紀，高道慎之介，猿渡洋
- Organizer
  電子情報通信学会技術研究報告
[Presentation] 最適輸送による GMM 補間を用いた中間属性の非実在話者生成2023
- Author(s)
  渡邊亞椰，高道慎之介，齋藤佑樹，辛徳泰，猿渡洋
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] 学習・評価ループを用いたデータ選択によるダークデータからの音声合成2023
- Author(s)
  関健太郎，高道慎之介，佐伯高明，猿渡洋
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] 自由記述文による声質制御に向けたin-the-wild文データ収集法2023
- Author(s)
  渡邊亞椰，高道慎之介，齋藤佑樹，猿渡洋
- Organizer
  電子情報通信学会技術研究報告
[Presentation] 音声モーフィングにおける時間軸方向の対応点数が品質に与える影響2023
- Author(s)
  堀部貴紀，森勢将雅，河原英紀
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] 朗読音声の発話スタイルを対象とした音響特徴量解析2023
- Author(s)
  小口純矢，森勢将雅
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] そのエージェントの声、合っていますか？-声質変換技術と印象適合・人工感制御-2022
- Author(s)
  齋藤大輔
- Organizer
  第40回日本ロボット学会学術講演会
- Invited
[Presentation] Domain Adaptation and Language Conditioning to Improve Phonetic Posteriorgram Based Cross-Lingual Voice Conversion2022
- Author(s)
  P. Hsu, N. Minematsu, D. Saito
- Organizer
  Proc. APSIPA
- Int'l Joint Research
[Presentation] An Experimental Study on Applying Self-Supervised Speech Representations to Cross-Lingual Voice Conversion2022
- Author(s)
  P. Hsu, N. Minematsu, D. Saito
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] LSTM-RNN音声合成における言語特徴量の時間的冗長性の削減に関する検討2022
- Author(s)
  チェジェヒョン, 五来丈瑠, 小谷岳, 齋藤大輔, 峯松信明
- Organizer
  情報処理学会研究報告
[Presentation] 身体と声色からの視聴覚感情知覚の発達的変化2022
- Author(s)
  山本寿子，田中章浩
- Organizer
  日本心理学会第86回大会
[Presentation] ラジオ聴取経験が及ぼす音声感情知覚への影響2022
- Author(s)
  鍬真衣，田中章浩
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] 非言語的な発声によるポジティブ感情の表出と知覚2022
- Author(s)
  大屋里佳，田中章浩
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] The perception of positive emotion from face, voice, and touch2022
- Author(s)
  R.Oya, A. Tanaka
- Organizer
  Proc. ISRE22
[Presentation] 自己教師あり学習と分類器チェーンを用いた非言語的発声に対する感情識別2022
- Author(s)
  辛徳泰，高道慎之介，猿渡洋
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] 避難呼びかけ音声の持つ緊急性の分析と音声合成への適用の検討2022
- Author(s)
  原田そら，中田亘，高道慎之介，齋藤佑樹，齋藤康之，猿渡洋
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] UTMOS：VoiceMOS Challenge2022 に向けたUTokyo-Sarulab チームの自然性 MOS 予測モデル2022
- Author(s)
  中田亘，辛德泰，佐伯高明，郡山知樹，高道慎之介，猿渡洋
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] jaCappella コーパス：重唱分離・合成に向けた日本語アカペラ歌唱コーパス2022
- Author(s)
  中村友彦，高道慎之介，丹治尚子，深山覚，猿渡洋
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] 知覚に伴う音声合成に向けた機械学習とコーパス2022
- Author(s)
  高道慎之介
- Organizer
  日本音響学会2022年秋季研究発表会
- Invited
[Presentation] A practical method for generating whisper voices: Improvements in phantom silhouette method and application to multiple languages2022
- Author(s)
  T. Uchida and M. Morise
- Organizer
  Proc. ICA 2022
- Int'l Joint Research
[Presentation] Crazy vocoderは砕けない～でもちょっとくだけた未来の話を～2022
- Author(s)
  森勢将雅
- Organizer
  電子情報通信学会技術研究報告
- Invited
[Presentation] 音声分析合成基盤WORLDのGUI実装と見えてきた課題2022
- Author(s)
  河原英紀，森勢将雅
- Organizer
  電子情報通信学会技術研究報告
[Presentation] 変調周波数伝達特性と周波数応答で音声処理を調べよう2022
- Author(s)
  河原英紀，矢田部浩平，榊原健，北村達也，坂野秀樹，森勢将雅
- Organizer
  情報処理学会音楽情報科学研究会
[Presentation] 音楽経験の有無が音高錯覚現象の知覚に与える影響の比較ー子供を対象とした結果の解析ー2022
- Author(s)
  田鎖佑弥，森勢将雅
- Organizer
  情報処理学会音楽情報科学研究会
[Presentation] 声を含むデータベースの「使いやすさ」に関する一考察～No.7音声・歌唱データベース構築を実例として～2022
- Author(s)
  森勢将雅
- Organizer
  情報処理学会音声言語情報処理研究会
[Presentation] 実用的なささやき声の生成法：Phantom Silhouette方式の多言語対応とユーザによる声色調整2022
- Author(s)
  内田照久，森勢将雅
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] 自動推定された音素境界とフォルマントによる音声モーフィングの品質評価2022
- Author(s)
  堀部貴紀，森勢将雅，河原英紀
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] 拡張音声モーフィングによるポップアウト属性の検証可能性2022
- Author(s)
  河原英紀，森勢将雅，榊原健一，北村達也，牧勝弘
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] プロ声優を対象とした大規模コーパス朗読におけるリテイク数の比較2022
- Author(s)
  山本泰我，小口純矢，森勢将雅
- Organizer
  日本音響学会2022年秋季研究発表会
[Book] 顔を聞き、声を見る2022
- Author(s)
  日本認知科学会、田中章浩
- Total Pages
  268
- Publisher
  共立出版
- ISBN
  4320094697

2022 Fiscal Year Annual Research Report

ビスポーク音声デザインの骨格形成と体系化

Principal Investigator

森勢 将雅 明治大学, 総合数理学部, 専任准教授 (60510013)

Current Status of Research Progress

Reason

Research Products

[Journal Article] VTTS: Visual-Text To Speech2023

Author(s)

Journal Title

DOI

[Journal Article] Touch and voice have different advantages in perceiving positive and negative emotions2023

Author(s)

Journal Title

DOI

[Journal Article] Voice Conversion Based on Deep Neural Networks for Time-Variant Linear Transformations2022

Author(s)

Journal Title

DOI

[Journal Article] INmfCA Algorithm for Training of Nonparallel Voice Conversion Systems Based on Non-Negative Matrix Factorization2022

Author(s)

Journal Title

DOI

[Journal Article] Text-to-speech synthesis using spectral modeling based on non-negative autoencoder2022

Author(s)

Journal Title

DOI

[Journal Article] The interaction of emotional information from the voice and touch2022

Author(s)

Journal Title

DOI

[Journal Article] UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 20222022

Author(s)

Journal Title

DOI

[Journal Article] J-MAC: Japanese multi-speaker audiobook corpus for speech synthesis2022

Author(s)

Journal Title

DOI

[Journal Article] SelfRemaster: Self-Supervised Speech Restoration with Analysis-by-Synthesis Approach Using Channel Modeling2022

Author(s)

Journal Title

DOI

[Journal Article] Exploring the Effectiveness of Self-supervised Learning and Classifier Chains in Emotion Recognition of Nonverbal Vocalizations2022

Author(s)

Journal Title

[Journal Article] レアなモーラを含む日本語歌唱データベースの構築と基礎評価2022

Author(s)

Journal Title

DOI

[Journal Article] ROHAN：テキスト音声合成に向けたモーラバランス型日本語コーパス2022

Author(s)

Journal Title

DOI

[Journal Article] An objective test tool for pitch extractors' response attributes2022

Author(s)

Journal Title

DOI

[Presentation] タッチ，音声，および表情からのポジティブ感情の知覚2023

Author(s)

Organizer

[Presentation] Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案2023

Author(s)

Organizer

[Presentation] 日本語音声合成におけるアクセント句韻律特徴量の表現と予測2023

Author(s)

Organizer

[Presentation] 最適輸送による GMM 補間を用いた中間属性の非実在話者生成2023

Author(s)

Organizer

[Presentation] 学習・評価ループを用いたデータ選択によるダークデータからの音声合成2023

Author(s)

Organizer

[Presentation] 自由記述文による声質制御に向けたin-the-wild文データ収集法2023

Author(s)

Organizer

[Presentation] 音声モーフィングにおける時間軸方向の対応点数が品質に与える影響2023

Author(s)

Organizer

[Presentation] 朗読音声の発話スタイルを対象とした音響特徴量解析2023

森勢将雅明治大学, 総合数理学部, 専任准教授 (60510013)

[Presentation] Crazy vocoderは砕けない～でもちょっとくだけた未来の話を～2022