2016 年度実施状況報告書

「自然な非人間性」に着目した新たな歌唱デザイン論の研究

研究課題

研究課題/領域番号	16K12511
研究機関	山梨大学
研究代表者	森勢将雅山梨大学, 総合研究部, 助教 (60510013)
研究分担者	能勢隆東北大学, 工学研究科, 准教授 (90550591)
研究期間 (年度)	2016-04-01 – 2018-03-31
キーワード	感性情報学 / 歌声情報処理 / 統計的歌声合成
研究実績の概要	本研究では，歌声の人間らしさに着目し，人間らしさと自然性との関係性を明らかにすることを目的とする．本年度は，1. 研究に必要となる音声分析合成システムの基盤構築，2. 歌声から知覚する人間性・非人間性の境界を明らかにするための知覚実験，および3. 歌声合成に必要となる歌唱データベースの構築に向けた検討を実施した． 1. について，これまでの研究で構築してきた高品質音声分析合成システムWORLDを改良し，合成音声の品質向上と，音声分析時における推定精度の向上に向けてアルゴリズムを改良した．2. について，人間性知覚に関する主観評価実験では，基本周波数（声の高さ）やスペクトル包絡（音色）が時間的に揺らいでいることが人間性知覚に影響すると仮定し，それらの時間的揺らぎを段階的に取り除くことで人間性の知覚にどのような影響が生じるかについて，主観評価により検証した．実験の結果，時間的な揺らぎが，知覚する人間性に影響し，基本周波数とスペクトル包絡との比較については，前者の時間的揺らぎの人間性知覚に与える影響は相対的に少ないことを確認した．また，基本周波数とスペクトル包絡は，一方が変化すればもう一方も変化する相互作用が働くと考えられている．本実験では，人工的に揺らぎを与えた音声で実験したところ，多少の影響は認められるものの，時間揺らぎが無い場合よりは人間的な音声として知覚されることを確認した． 3. については，統計的処理を用いた歌声合成を行うために必要となるデータベースについて，特定の表現に偏りが生じないように，楽譜情報のバランスを考慮したフレーズ選択について検討した．これらの知見は，HMM (Hidden Markov Model)やDNN (Deep Neural Network)を用いた歌声合成を実施するために重要な意味がある．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 1年目は，人間性知覚に関する実験，および統計的歌声合成を実施するための基盤作りを目指した．人間性の知覚実験の結果は概ね想定どおりであり，時間的な揺らぎを意図的に制御することで人間らしさを制御可能であることが示された．歌声データベースの構築についても計画どおり進められており，全体としては概ね順調に進展していると考えている．
今後の研究の推進方策	音声パラメータの時間的な揺らぎを低減することで，知覚する人間らしさも低減できることを確認した．次年度は，逆に揺らぎを増幅することで，人間らしさがどの程度まで維持されるのか検討する．人間性の知覚と歌声の自然性についての境界について知覚実験を行う．歌声において重要となるビブラートなどの歌唱表現について，より強調した表現を与えることによる知覚的影響について調査する．統計的歌声合成については，歌声データベースについて引き続き検討を進めるほか，HMM (Hidden Markov Model)あるいはDNN (Deep Neural Network)による歌声合成について検討を続ける．これらの検討後，両方の研究成果を統合することで，自然性を損なわない範囲での演奏表現の誇張法について検討する．一連の検討により得られた歌声について，主観評価を行うことにより，有効性を確認する．
次年度使用額が生じた理由	購入予定の物品が当初の計画より安価に入手できたこと，および実験にかかるコストを省力化することで費用を圧縮した．その分，次年度に実施予定であった実験を前倒しで進めることとしたが，成果報告には至らなかったため，次年度に繰り越して利用することとした．
次年度使用額の使用計画	H29年度に購入予定の物品を，当初の計画より高い性能のものとする．本研究では音声の統計的な分析や，実験に用いる音声の合成が必要となるため，より高度な機材を導入することで，プログラム開発や計算機シミュレーションに関する時間の削減を狙う．

研究成果
(6件)

すべて 2017 2016 その他

すべて学会発表 (5件) (うち国際学会 2件) 備考 (1件)

[学会発表] 楽譜情報のバランスを考慮したフレーズ選択の検討ー歌声合成のための歌唱データベースの構築に向けてー2017
- 著者名/発表者名
  本郷康貴, 能勢隆, 伊藤彰則
- 学会等名
  日本音響学会2017年春季研究発表会
- 発表場所
  桐蔭横浜大学（神奈川県横浜市）
- 年月日
  2017-03-15 – 2017-03-17
[学会発表] Spectral and pitch modeling with hybrid approach to singing voice synthesis using hidden semi-Markov model and deep neural network2016
- 著者名/発表者名
  Hongo Kouki, Takashi Nose, Akinori Ito
- 学会等名
  ASA-ASJ joint meeting 2016
- 発表場所
  Honolulu, Hawaii (USA)
- 年月日
  2016-11-28 – 2016-12-02
- 国際学会
[学会発表] Effect of temporal fluctuation in speech on perception of humanness of synthesized speech2016
- 著者名/発表者名
  Fumiya Yokomori, Masanori Morise, Kenji Ozawa
- 学会等名
  ASA-ASJ joint meeting 2016
- 発表場所
  Honolulu, Hawaii (USA)
- 年月日
  2016-11-28 – 2016-12-02
- 国際学会
[学会発表] 基本周波数とスペクトル包絡のゆらぎに着目した合成音声の人間性知覚に関する検討2016
- 著者名/発表者名
  横森文哉，森勢将雅，小澤賢司
- 学会等名
  日本音響学会2016年秋季研究発表会
- 発表場所
  富山大学（富山県富山市）
- 年月日
  2016-09-14 – 2016-09-16
[学会発表] 音声分析合成システムWORLDにより実時間音声合成を実現するための拡張と実装例2016
- 著者名/発表者名
  森勢将雅
- 学会等名
  情報処理学会音楽情報科学研究会
- 発表場所
  東京理科大学（千葉県野田市）
- 年月日
  2016-07-30 – 2016-08-01
[備考] 森勢将雅Homepage
- URL
  http://ml.cs.yamanashi.ac.jp/

2016 年度 実施状況報告書

「自然な非人間性」に着目した新たな歌唱デザイン論の研究

研究代表者

森勢 将雅 山梨大学, 総合研究部, 助教 (60510013)

現在までの達成度 (区分)

理由

研究成果

[学会発表] 楽譜情報のバランスを考慮したフレーズ選択の検討 ー歌声合成のための歌唱データベースの構築に向けてー2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Spectral and pitch modeling with hybrid approach to singing voice synthesis using hidden semi-Markov model and deep neural network2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Effect of temporal fluctuation in speech on perception of humanness of synthesized speech2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 基本周波数とスペクトル包絡のゆらぎに着目した合成音声の人間性知覚に関する検討2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声分析合成システムWORLDにより実時間音声合成を実現するための拡張と実装例2016

著者名/発表者名

学会等名

発表場所

年月日

[備考] 森勢将雅Homepage

URL

2016 年度実施状況報告書

森勢将雅山梨大学, 総合研究部, 助教 (60510013)

[学会発表] 楽譜情報のバランスを考慮したフレーズ選択の検討ー歌声合成のための歌唱データベースの構築に向けてー2017