2021 Fiscal Year Annual Research Report

ビスポーク音声デザインの骨格形成と体系化

Research Project

Project/Area Number	21H04900
Research Institution	Meiji University
Principal Investigator	森勢将雅明治大学, 総合数理学部, 専任准教授 (60510013)
Co-Investigator(Kenkyū-buntansha)	田中章浩東京女子大学, 現代教養学部, 教授 (80396530) 齋藤大輔東京大学, 大学院工学系研究科(工学部), 准教授 (40615150) 高道慎之介東京大学, 大学院情報理工学系研究科, 助教 (90784330)
Project Period (FY)	2021-04-05 – 2025-03-31
Keywords	音声情報処理 / 音声合成 / 声質変換 / 音声知覚 / 音声デザイン
Outline of Annual Research Achievements	ユーザが計算機と協調して所望の音声を作り上げる「ビスポーク音声デザイン」の実現を目指した一連の研究を推進した．初年度は，今後の研究を円滑に推進するための基盤作りとして，様々な音声を合成する基盤技術の研究や，テキスト音声合成研究を推進するための大規模なコーパス作り，およびプロ声優による複数の発話スタイルでのコーパス文の朗読による音声データベースの構築に取り組んだ．以下では，音声コーパス・データベース構築について中心に説明する．音声データベースの構築では自由発話が対象の場合もあるが，テキスト音声合成では安定した声質が重要であることから，何らかのコーパスを朗読することが多い．ここで，朗読する具体的な音声コーパスは，ATR音素バランス文やITAコーパス，あるいは著作権切れの文などを利用していた．一方，現在の日本語は「ヴァ」行や「ツァ」行のように利用するモーラが増えており，著作権切れの文のみでは出現しないことが問題となる．加えて，近年のテキスト音声合成では必要な音声データが大規模化しており，従来用いられていた数百文程度では十分な性能が得られない．そこで，モーラの種類については，通常の文では出現頻度の低いレアなモーラを含む独自の文で構成され，文の数も数千の規模からなる新たなコーパスを構築した．本コーパスは，常用漢字の読みを全て含む4,600文から構成されており，朗読するとおよそ6時間ほどのものである．全て独自の文章で構築されており自由なライセンスを設定できるため，パブリック・ドメインで公開している．本コーパスの構築後は，プロ声優により3つの発話スタイル（通常，ニュースのアナウンス風，絵本の朗読風）で朗読した音声を収録し，音声データベースとして公開した．同じ文を異なる発話スタイルで朗読しており，発話スタイルの違いがどのような音響特徴量で表現できるかの研究に利用可能である．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason コロナ禍の影響により，音声収録や対面での音声知覚実験についてスケジュールに遅れが生じていた．一方，それ以外の研究については想定したスケジュールで進行しており，全体としては，概ね順調に進展していると判断している．
Strategy for Future Research Activity	2021年度に構築した音声データベースを活用し，発話スタイルを変えた音声合成の実現や，発話スタイルがどのような音響特徴量の違いで表現されているかを検討する．音声合成で扱う感情表現は，従来喜怒哀程度であったが，音声の感情表現はこれらでは表せない表現が無数に存在するといえる．したがって，音声デザインで扱う感情表現について，現場のニーズの調査を含めて絞り込む作業が実施する．現状は音声合成の技術を中心に扱っているが，音声デザインを実現するためには，デザイン用のインタフェースの研究も必要となる．音声デザインのインタフェースに対する機能について検討し，その機能をあった音声合成技術を開発することで，総合的な音声デザイン技術を追求することを目指す．

Research Products
(37 results)

All 2022 2021 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results, Open Access: 1 results) Presentation (31 results) Remarks (3 results)

[Journal Article] Cross-cultural similarity and cultural specificity in the emotion perception from touch.2022
- Author(s)
  Oya Rika、Tanaka Akihiro
- Journal Title
  
  Emotion
  
  Volume: － Pages: －
- DOI
  10.1037/emo0001086
- Peer Reviewed
[Journal Article] 顔・身体表現から探るトランスカルチャー2021
- Author(s)
  田中章浩，清水大地，小手川正二郎
- Journal Title
  
  映像情報メディア学会誌
  
  Volume: 75 Pages: 614～620
- Peer Reviewed
[Journal Article] Mixture of Orthogonal Sequences Made from Extended Time-Stretched Pulses Enables Measurement of Involuntary Voice Fundamental Frequency Response to Pitch Perturbation2021
- Author(s)
  Kawahara Hideki、Matsui Toshie、Yatabe Kohei、Sakakibara Ken-Ichi、Tsuzaki Minoru、Morise Masanori、Irino Toshio
- Journal Title
  
  Proc. INTERSPEECH 2021
  
  Volume: － Pages: 3206～3210
- DOI
  10.21437/Interspeech.2021-2073
- Peer Reviewed / Open Access
[Presentation] Speaking Rate Control by HiFi-GAN using Feature Interpolation2022
- Author(s)
  辛徳泰，高道慎之介，岡本拓磨，河井恒，猿渡洋
- Organizer
  情報処理学会研究報告
[Presentation] 画像文字からの音声合成2022
- Author(s)
  中野嘉文，佐伯高明，高道慎之介，須藤克仁，猿渡洋
- Organizer
  言語処理学会第28回年次大会
[Presentation] JTubeSpeech: 音声認識と話者照合のためにYouTubeから構築される日本語音声コーパス2022
- Author(s)
  高道慎之介，K. Ludwig，佐伯高明，塩田さやか，渡部晋治
- Organizer
  言語処理学会第28回年次大会
[Presentation] パラメータ最適化を用いた信号処理による仮名化手法の復号攻撃に対するロバスト性評価2022
- Author(s)
  甲斐優人，高道慎之介，塩田さやか，貴家仁志
- Organizer
  電子情報通信学会技術研究報告
[Presentation] ソース・フィルタ・チャネル分解に基づく自己教師ありニューラル音声復元2022
- Author(s)
  佐伯高明，高道慎之介，中村友彦，丹治尚子，猿渡洋
- Organizer
  情報処理学会研究報告
[Presentation] タッチや音声による感情知覚2022
- Author(s)
  大屋里佳，田中章浩
- Organizer
  第12回多感覚研究会
[Presentation] WORLDに基づく時変多属性任意事例数モーフィングと周辺ツールの実装について2022
- Author(s)
  河原英紀，森勢将雅
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] 複素ケプストラムに基づく音源の位相特性を用いた音声波形生成2022
- Author(s)
  小口純矢，森勢将雅
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] テキスト音声合成に向けたモーラバランス型コーパスの提案と評価2022
- Author(s)
  森勢将雅
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] 音高錯覚現象における大人と子供の比較2022
- Author(s)
  田鎖佑弥，森勢将雅
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] 基本周波数変化に伴うスペクトルの動的変動を考慮した自然性を維持できる音高変換の検討2022
- Author(s)
  金井郁也，森勢将雅
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] 音声仮名化のための加工音声重畳と非可逆性評価2021
- Author(s)
  甲斐優人，高道慎之介，塩田さやか，貴家仁志
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 魅力的な音声に影響する音響特徴の検討2021
- Author(s)
  和田夏美，大屋里佳，長島太郎，小池貴久，田中章浩
- Organizer
  第23回日本感性工学会大会
[Presentation] 自己の発話に対する他人声のフィードバックが声の所有感に与える影響2021
- Author(s)
  中川優奈，田中章浩
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 自分と他人の声の境界は変化するか2021
- Author(s)
  中川優奈，田中章浩
- Organizer
  電子情報通信学会ヒューマン情報処理研究会
[Presentation] ITAコーパス：パブリックドメインの音素バランス文からなる日本語テキストコーパスの構築と基礎評価2021
- Author(s)
  小口純矢，金井郁也，小田恭央，齊藤剛史，森勢将雅
- Organizer
  情報処理学会音楽情報科学研究会
[Presentation] レアなモーラを含む日本語歌唱データベースの構築と基礎評価2021
- Author(s)
  森勢将雅，藤本健，小岩井ことり
- Organizer
  第20回情報科学技術フォーラム
[Presentation] 声帯音源の群遅延特性に基づく特徴量を用いた励振源による有声音波形生成法の提案と評価2021
- Author(s)
  小口純矢，森勢将雅
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 音声分析合成システムの無声音生成に用いる励起信号の違いが分析合成音の品質劣化に与える影響の調査2021
- Author(s)
  田鎖佑弥，森勢将雅
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 歌声の基本周波数変化に伴う音色変化に対応する動的変動量の解析2021
- Author(s)
  金井郁也，森勢将雅
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 波形の相互相関に基づく基本周波数推定における距離尺度による影響の調査2021
- Author(s)
  小口純矢，森勢将雅
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] Interactive and Real-Time Acoustic Measurement Tools for Speech Data Acquisition and Presentation: Application of an Extended Member of Time Stretched Pulses2021
- Author(s)
  Kawahara, H., Yatabe, K., Sakakibara, K.-I., Mizumachi, M., Morise, M., Banno, H., Irino, T.
- Organizer
  Interspeech 2021
[Presentation] IMPLEMENTATION OF INTERACTIVE TOOLS FOR INVESTIGATING FUNDAMENTAL FREQUENCY RESPONSE OF VOICED SOUNDS TO AUDITORY STIMULATION2021
- Author(s)
  H. Kawahara, T. Irino, T. Matsui, K. Yatabe, K. Sakakibara, M. Tsuzaki, M. Morise
- Organizer
  APSIPA 2021
[Presentation] スペクトル差異に着目した単独歌唱音声の合唱への最適化の検討2021
- Author(s)
  稲津遥太郎，齋藤大輔，峯松信明
- Organizer
  情報処理学会研究報告
[Presentation] 固有声変換法を用いた重唱における調和度制御に関する検討2021
- Author(s)
  菊地晏南，齋藤大輔，峯松信明
- Organizer
  情報処理学会研究報告
[Presentation] 自然な斉唱音声合成のための複数歌唱者の基本周波数パターン制御に関する検討2021
- Author(s)
  勝瑞雄介，齋藤大輔，峯松信明
- Organizer
  情報処理学会研究報告
[Presentation] A fine-grained prosody control approach for improving the diversity of emotional text-to-speech2021
- Author(s)
  J. Zhang，D. Saito，N. Minematsu
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 統計的音声合成のための非負値自己符号化器を用いた音響モデリングの検討2021
- Author(s)
  五来丈瑠，齋藤大輔，峯松信明
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 自然音声の人工感を連続的に制御する技術の検討と評価2021
- Author(s)
  今村奏海，増田尚建，須田仁志，齋藤大輔，峯松信明
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 対話型遺伝的アルゴリズムを用いた自己聴取音合成のためのパラメータ推定2021
- Author(s)
  田中尚輝，増田尚建，齋藤大輔，峯松信明
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] An Experimental Study on Language Conditioning in Phonetic Posteriorgrams based Cross-lingual Voice Conversion2021
- Author(s)
  P. Hsu，N. Minematsu，D. Saito
- Organizer
  日本音響学会2021年秋季研究発表会
[Remarks] 研究者向け音声合成検証用No.7音声データベース
- URL
  https://voiceseven.com/7rdev/login.php
[Remarks] ROHAN：モーラバランス型日本語コーパス
- URL
  https://github.com/mmorise/rohan4600
[Remarks] ITAコーパス
- URL
  https://github.com/mmorise/ita-corpus

2021 Fiscal Year Annual Research Report

ビスポーク音声デザインの骨格形成と体系化

Principal Investigator

森勢 将雅 明治大学, 総合数理学部, 専任准教授 (60510013)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Cross-cultural similarity and cultural specificity in the emotion perception from touch.2022

Author(s)

Journal Title

DOI

[Journal Article] 顔・身体表現から探るトランスカルチャー2021

Author(s)

Journal Title

[Journal Article] Mixture of Orthogonal Sequences Made from Extended Time-Stretched Pulses Enables Measurement of Involuntary Voice Fundamental Frequency Response to Pitch Perturbation2021

Author(s)

Journal Title

DOI

[Presentation] Speaking Rate Control by HiFi-GAN using Feature Interpolation2022

Author(s)

Organizer

[Presentation] 画像文字からの音声合成2022

Author(s)

Organizer

[Presentation] JTubeSpeech: 音声認識と話者照合のためにYouTubeから構築される日本語音声コーパス2022

Author(s)

Organizer

[Presentation] パラメータ最適化を用いた信号処理による仮名化手法の復号攻撃に対するロバスト性評価2022

Author(s)

Organizer

[Presentation] ソース・フィルタ・チャネル分解に基づく自己教師ありニューラル音声復元2022

Author(s)

Organizer

[Presentation] タッチや音声による感情知覚2022

Author(s)

Organizer

[Presentation] WORLDに基づく時変多属性任意事例数モーフィングと周辺ツールの実装について2022

Author(s)

Organizer

[Presentation] 複素ケプストラムに基づく音源の位相特性を用いた音声波形生成2022

Author(s)

Organizer

[Presentation] テキスト音声合成に向けたモーラバランス型コーパスの提案と評価2022

Author(s)

Organizer

[Presentation] 音高錯覚現象における大人と子供の比較2022

Author(s)

Organizer

[Presentation] 基本周波数変化に伴うスペクトルの動的変動を考慮した自然性を維持できる音高変換の検討2022

Author(s)

Organizer

[Presentation] 音声仮名化のための加工音声重畳と非可逆性評価2021

Author(s)

Organizer

[Presentation] 魅力的な音声に影響する音響特徴の検討2021

Author(s)

Organizer

[Presentation] 自己の発話に対する他人声のフィードバックが声の所有感に与える影響2021

Author(s)

Organizer

[Presentation] 自分と他人の声の境界は変化するか2021

Author(s)

Organizer

[Presentation] ITAコーパス：パブリックドメインの音素バランス文からなる日本語テキストコーパスの構築と基礎評価2021

Author(s)

Organizer

[Presentation] レアなモーラを含む日本語歌唱データベースの構築と基礎評価2021

Author(s)

Organizer

[Presentation] 声帯音源の群遅延特性に基づく特徴量を用いた励振源による有声音波形生成法の提案と評価2021

Author(s)

Organizer

[Presentation] 音声分析合成システムの無声音生成に用いる励起信号の違いが分析合成音の品質劣化に与える影響の調査2021

Author(s)

Organizer

[Presentation] 歌声の基本周波数変化に伴う音色変化に対応する動的変動量の解析2021

Author(s)

Organizer

[Presentation] 波形の相互相関に基づく基本周波数推定における距離尺度による影響の調査2021

Author(s)

森勢将雅明治大学, 総合数理学部, 専任准教授 (60510013)