2012 年度実施状況報告書

話者性再現度の自動評価に基づいた個性豊かな音声合成に関する研究

研究課題

研究課題/領域番号	24500223
研究種目	基盤研究(C)
研究機関	立命館大学
研究代表者	山下洋一立命館大学, 情報理工学部, 教授 (80174689)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	話者性 / 声質 / 音声合成 / 重み付きユークリッド距離
研究概要	瞬時的なスペクトルによって表現される声質の違いに焦点をあて，声質の類似性を自動的に予測する手法について検討した。音声の特徴量としてMFCCパラメータを用い，その重み付けユークリッド距離で声質類似度を予測する。まず，文音声を用いた声質類似度の予測を試みた。30名の話者が発声した文音声を収録し，声質類似度を予測するモデル（重み付きユークリッド距離における重み係数）の学習と評価で話者が異なるように，30名のうち20名の話者が発声した学習用データセットL と残りの10名が発声した評価用データセットTに分割した。Lの発声内容は１文のみであり， Tの発声内容は2文でうち１文はLの文と同じである。18 名の被験者がデータセットごとに総当りで声質類似性の判定を行った。予測結果と聴取実験結果との相関値が最大で0.49 であった。聴取実験で得られた評価値の分散が大きいことから，文音声を用いた場合，声質の類似性を安定して判断することが困難であると思われる。次に，文音声に含まれる韻律や特徴量の時間変化等の様々な要因を取り除くため，孤立発声された単母音を用いて声質類似度の推定を試みた。20名の話者が140Hzのトーン信号を聴取しながら同じ音高で発声した単母音/a/ と/i/ を収録し，10名ずつをモデルの学習と評価に用いた。話者の同一性を判定する聴取実験を行い，孤立発声された単母音を聴取することで話者間の声質類似度をある程度判定できることを確認した。単母音/a/および/i/を用いた声質類似度の予測において，聴取実験との相関値で，それぞれ0.81, 0.78 を得た。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初予定した音声データの収録，聴取実験の実行，声質類似度の予測手法の検討と評価を行うことができており，順調に計画が遂行されていると考えている。
今後の研究の推進方策	音声で伝えられる話者性のうち，声の高さや大きさ，話す速度などの韻律によって表現される話者性に焦点をあてて，話者性の類似度を予測する手法を検討する。多様な韻律の音声を用いて話者性の類似度を検討するために，初年度に収録した文音声に加えて用いて，アナウンサー調，アニメ調など多様なスタイルの音声の収録を行う。話者の声質の違いにとらわれずにイントネーションの違いに注目した判断結果を得るために，イントネーションを保存し声質を基準話者と同じになるように変更した合成音を作成し，聴取実験に用いる。聴取実験の進め方や類似度を測る手法の検討は，初年度の声質類似度に対する内容と同様に行う。
次年度の研究費の使用計画	2012年度には，採録を見込んでいた国際会議への投稿が不採録となり参加を見送ったため旅費に未使用額が生じた。 2013年度には，人の判断した話者性の類似度を得るために聴取実験を行う予定である。聴取実験の被験者および実験補助者に謝金として，25万円を見込んでいる。研究成果の発表および資料収集のために旅費として25万円，聴取実験実施およびデータ整理用のためのノートPCとして20万円，プリンタトナーやプリンタ用紙などの消耗品代として10 万円，論文掲載料などのその他経費として10万円を予定している。

研究成果
(5件)

すべて 2013 その他

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (3件)

[雑誌論文] A Review of Paralinguistic Information Processing for Natural Speech Communication2013
- 著者名/発表者名
  Yoichi Yamashita
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 34 ページ: 73-79
- DOI
  10.1250/ast.34.73
- 査読あり
[雑誌論文] A Generation Error Function Considering Dynamic Properties of Speech Parameters for Minimum Generation Error Training for Hidden Markov Model-based Speech Synthesis2013
- 著者名/発表者名
  D.Khanh Ninh, M.Morise and Y.Yamashita
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 34 ページ: 123-132
- 査読あり
[学会発表] An adaptive weighting approach for minimum generation error training considering dynamic features in HMM-based speech synthesis
- 著者名/発表者名
  D.Khanh Ninh, M.Morise and Y.Yamashita
- 学会等名
  Proc. of 2012 Autumn Meeting of Acoustical Society of Japan
- 発表場所
  Shinshu Univ. (Nagano)
[学会発表] 孤立発声母音を用いた声質類似度の評価と自動推定
- 著者名/発表者名
  辻村祥平, 森勢将雅, 山下洋一
- 学会等名
  電子情報通信学会技術研究報告
- 発表場所
  同志社大学 (京都府)
[学会発表] パラ言語情報処理のための対話音声の収録とラベリング
- 著者名/発表者名
  島川智行, 森勢将雅, 山下洋一
- 学会等名
  電子情報通信学会技術研究報告
- 発表場所
  同志社大学 (京都府)

2012 年度 実施状況報告書

話者性再現度の自動評価に基づいた個性豊かな音声合成に関する研究

研究代表者

山下 洋一 立命館大学, 情報理工学部, 教授 (80174689)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] A Review of Paralinguistic Information Processing for Natural Speech Communication2013

著者名/発表者名

雑誌名

DOI

[雑誌論文] A Generation Error Function Considering Dynamic Properties of Speech Parameters for Minimum Generation Error Training for Hidden Markov Model-based Speech Synthesis2013

著者名/発表者名

雑誌名

[学会発表] An adaptive weighting approach for minimum generation error training considering dynamic features in HMM-based speech synthesis

著者名/発表者名

学会等名

発表場所

[学会発表] 孤立発声母音を用いた声質類似度の評価と自動推定

著者名/発表者名

学会等名

発表場所

[学会発表] パラ言語情報処理のための対話音声の収録とラベリング

著者名/発表者名

学会等名

発表場所

2012 年度実施状況報告書

山下洋一立命館大学, 情報理工学部, 教授 (80174689)