2016 Fiscal Year Annual Research Report
歌声知覚を考慮した統計的歌声声質制御法に関する研究
Project/Area Number |
16J10726
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
小林 和弘 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2016-04-22 – 2018-03-31
|
Keywords | 歌声声質制御 / 知覚年齢 / 混合正規分布モデル |
Outline of Annual Research Achievements |
本研究課題は,「歌声知覚を考慮した統計的歌声声質制御法に関する研究」であり,(1) ユーザの知覚基準に合致した声質変動モデルの構築法および,(2) 任意の声質表現語に声質変動モデルの構築法のそれぞれに対して取り組む計画である.本年度は,研究課題の遂行に向けて,実施した研究のうち,代表的な3点を以下に示す. 知覚年齢に基づく歌声声質制御法に関する論文の執筆:知覚年齢に基づく歌声声質制御法において,ユーザが自身を入力歌手とする声質制御システムを容易に構築できる様にするため,事後確率最大化に基づく入力歌手適応法を提案した.また,変換歌声の自然性を向上させるため,差分スペクトル補正に基づく歌声声質変換を知覚年齢に基づく歌声声質制御に適用した手法を提案した.主観評価実験を実施し,提案法の有効性を評価した.得られた評価結果をまとめた論文を,電子情報通信学会の英語論文誌に投稿し,採録された. 直交化制約付き声質制御法に関する国際会議予稿の執筆:声質表現語に基づく声質制御法では,複数の声質表現語に基づき声質を制御する場合において,互いの声質表現語間で相関があれば,一方の声質表現語スコアを操作した際に,異なる声質表現語に対応する声質も同時に変化する問題が確認されている.本研究では,この問題を解決するために,声質表現語に基づく声質制御を可能とする声質変動ベクトルを推定する際に,声質変動ベクトルが互いに直交化する制約を付与する事で,声質制御空間における相関をなくす枠組みを提案した. リアルタイム声質制御アプリケーションの作成:任意のユーザが自身の歌声の声質をリアルタイムに制御可能とする際に用いるユーザインターフェースを作成し,これのデモンストレーションを対外発表などで実施した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題は,「歌声知覚を考慮した統計的歌声声質制御法に関する研究」であり,それの実現に向けて,論文誌での採録や,国際会議の予稿の執筆,ユーザインタフェースの作成を実施した.本研究の現在までの進捗は,統計的歌声声質制御法の改善が大きい.今後,知覚情報の考慮した声質制御法の実現に向けて.現在,ユーザの知覚情報をモデル化するために必要な,機械学習に関する勉強を進めている. また,平成28度に関しては,本研究課題に,密接に関連する以下の研究も実施した. -INTERSPEECH2016で初開催されたVoice Conversion Challenge2016への参加 2016年に第1回目のVoice Conversion Challengeが開催された.本チャレンジは,入力話者から目標話者への話者性の変換を可能とする声質変換に関するコンペティションであり,話者性の変換精度と変換音声の自然性という二つの評価指標に基づいて,世界各国の大学や研究機関から投稿された声質変換システムを評価する.第1回大会では,17のシステムが投稿され,その優越を比較した. 声質変換と声質制御は,非常に密接した研究分野である事から,声質制御法の更なる改善のため,我々は,名古屋大学と共同で.”NU-NAIST VC system”を作成し,システムをチャレンジに投稿した.オーガナイザによって実施された評価結果より,我々のシステムは,高い自然性を保ちながら最も優れた個人性変換精度を実現可能である事がわかった.統一的なデータベースや尺度に基いて評価されたコンペティションであったため,最も優れた評価を得たことで,世界的に注目を浴びる事が出来たと考えられる.
|
Strategy for Future Research Activity |
本年度は,ユーザの知覚基準に合致した声質制御を実現するために,能動学習を利用した,ユーザの知覚情報のモデル化法に関する研究を進める.従来の知覚年齢に基づく声質制御法で利用されていた,歌声データベースを利用し,その歌声に知覚年齢以外の声質表現語に対するスコアのアノテーションを実施する.続いて,能動学習の枠組みを利用した知覚情報のモデル化を実現する事で,ユーザは,少量のアノテーションのみで任意の声質表現語に対する知覚モデルを構築する事が可能となると期待される.その後,客観的評価実験および主観的評価実験をそれぞれ実施し,提案法の有効性を確認する.得られた評価結果は,今年度に開催される国際会議や論文誌に投稿する予定である.最終的なシステムは,昨年度に作成したグラフィカルユーザインターフェースに統合する事で,ユーザが容易に知覚モデルを構築し,歌声を制御する事が可能となる. 平成29年度の対外発表予定として,日本音響学会での1度,その他研究会で1度,INTERSPEECHやICASSPなどの査読付き国際会議で3度の発表を計画している.
|