2014 Fiscal Year Annual Research Report

話者性再現度の自動評価に基づいた個性豊かな音声合成に関する研究

Research Project

Project/Area Number	24500223
Research Institution	Ritsumeikan University
Principal Investigator	山下洋一立命館大学, 情報理工学部, 教授 (80174689)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	声質 / 個人性 / 韻律 / スペクトル / 音声合成
Outline of Annual Research Achievements	個性豊かな音声合成を実現するために，音声における声質や韻律に関して，個人性の分析や自動評価に関して研究を行った。音声の声質は主にスペクトルによって表現される。スペクトルの違いに焦点をあて，声質の類似性を自動予測する手法を提案した。音声の特徴量としてMFCCパラメータを用い，その重み付きユークリッド距離で声質類似度を予測する。文音声を対象とした予測では，予測結果と聴取実験結果との相関値が0.49 とやや低い値となった一方で，声の高さなどの韻律の影響を取り除いた短母音を対象としては，/a/, /i/ に対してそれぞれ0.81, 0.78 の高い相関値を得た。音声の個人性の違いは韻律によっても表現される。そこで，音声の音韻性の変化を取り除き韻律情報を保存した合成音声を用いた聴取実験を行い，個人性の知覚と韻律情報の関係を分析した。合成音声の聴取によって韻律情報から個人を同定することは困難であったが，よく知っている身近な話者については同定できており，アナウンサーと一般話者の違いも知覚できることがわかった。また，合成音声の音質を改善する手法として，HMM（隠れマルコフモデル）を用いたパラメータ音声合成手法において，パラメータの時間変化が過度に平滑化され音声が劣化する問題を解決するために，パラメータの時間変化が自然音声における変化と近づくようにモデル化を行う新しいパラメータ生成手法を提案した。さらに，最終年度においては，音声の明瞭性を自動予測する手法を提案し評価した。音声スペクトルにおけるダイナミックレンジを用いて明瞭性を予測する。アナウンサー，セミプロ話者，一般話者の3種類に音声を分類し，この順に明瞭性が高いとの予測結果を得た。スペクトルダイナミックレンジを算出する音声区間や周波数帯域について検討を行い，それらを変更しても大きな差がないことを確認した。

Research Products
(2 results)

All Presentation (2 results)

[Presentation] 音声中の検索語検出における共起情報の検討2015
- Author(s)
  小田原一成, 新妻雅弘, 山下洋一
- Organizer
  日本音響学会2015年春季研究発表会
- Place of Presentation
  中央大学 (東京都・文京区)
- Year and Date
  2015-03-16
[Presentation] 非可聴域の音信号を用いた音信号通信における性能改善の検討2015
- Author(s)
  銭コウ, 森勢将雅, 新妻雅弘, 山下洋一
- Organizer
  日本音響学会2015年春季研究発表会
- Place of Presentation
  中央大学 (東京都・文京区)
- Year and Date
  2015-03-16