研究課題/領域番号 |
16K12511
|
研究機関 | 山梨大学 |
研究代表者 |
森勢 将雅 山梨大学, 総合研究部, 助教 (60510013)
|
研究分担者 |
能勢 隆 東北大学, 工学研究科, 准教授 (90550591)
|
研究期間 (年度) |
2016-04-01 – 2018-03-31
|
キーワード | 感性情報学 / 歌声情報処理 / 統計的歌声合成 |
研究実績の概要 |
本研究では,歌声の人間らしさに着目し,人間らしさと自然性との関係性を明らかにすることを目的とする.本年度は,1. 研究に必要となる音声分析合成システムの基盤構築,2. 歌声から知覚する人間性・非人間性の境界を明らかにするための知覚実験,および3. 歌声合成に必要となる歌唱データベースの構築に向けた検討を実施した. 1. について,これまでの研究で構築してきた高品質音声分析合成システムWORLDを改良し,合成音声の品質向上と,音声分析時における推定精度の向上に向けてアルゴリズムを改良した.2. について,人間性知覚に関する主観評価実験では,基本周波数(声の高さ)やスペクトル包絡(音色)が時間的に揺らいでいることが人間性知覚に影響すると仮定し,それらの時間的揺らぎを段階的に取り除くことで人間性の知覚にどのような影響が生じるかについて,主観評価により検証した.実験の結果,時間的な揺らぎが,知覚する人間性に影響し,基本周波数とスペクトル包絡との比較については,前者の時間的揺らぎの人間性知覚に与える影響は相対的に少ないことを確認した.また,基本周波数とスペクトル包絡は,一方が変化すればもう一方も変化する相互作用が働くと考えられている.本実験では,人工的に揺らぎを与えた音声で実験したところ,多少の影響は認められるものの,時間揺らぎが無い場合よりは人間的な音声として知覚されることを確認した. 3. については,統計的処理を用いた歌声合成を行うために必要となるデータベースについて,特定の表現に偏りが生じないように,楽譜情報のバランスを考慮したフレーズ選択について検討した.これらの知見は,HMM (Hidden Markov Model)やDNN (Deep Neural Network)を用いた歌声合成を実施するために重要な意味がある.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
1年目は,人間性知覚に関する実験,および統計的歌声合成を実施するための基盤作りを目指した.人間性の知覚実験の結果は概ね想定どおりであり,時間的な揺らぎを意図的に制御することで人間らしさを制御可能であることが示された.歌声データベースの構築についても計画どおり進められており,全体としては概ね順調に進展していると考えている.
|
今後の研究の推進方策 |
音声パラメータの時間的な揺らぎを低減することで,知覚する人間らしさも低減できることを確認した.次年度は,逆に揺らぎを増幅することで,人間らしさがどの程度まで維持されるのか検討する.人間性の知覚と歌声の自然性についての境界について知覚実験を行う.歌声において重要となるビブラートなどの歌唱表現について,より強調した表現を与えることによる知覚的影響について調査する.統計的歌声合成については,歌声データベースについて引き続き検討を進めるほか,HMM (Hidden Markov Model)あるいはDNN (Deep Neural Network)による歌声合成について検討を続ける. これらの検討後,両方の研究成果を統合することで,自然性を損なわない範囲での演奏表現の誇張法について検討する.一連の検討により得られた歌声について,主観評価を行うことにより,有効性を確認する.
|
次年度使用額が生じた理由 |
購入予定の物品が当初の計画より安価に入手できたこと,および実験にかかるコストを省力化することで費用を圧縮した.その分,次年度に実施予定であった実験を前倒しで進めることとしたが,成果報告には至らなかったため,次年度に繰り越して利用することとした.
|
次年度使用額の使用計画 |
H29年度に購入予定の物品を,当初の計画より高い性能のものとする.本研究では音声の統計的な分析や,実験に用いる音声の合成が必要となるため,より高度な機材を導入することで,プログラム開発や計算機シミュレーションに関する時間の削減を狙う.
|