研究課題
本研究の目的は、ごく少量の学習データでスペクトル情報と韻律情報、発話速度などを統一的に変換する声質変換手法を構築することである。従来の声質変換手法が音色を表すスペクトル情報のみに着目していたのに対し、提案法では、声の高さや抑揚・発話速度など、話者性が含まれるすべての情報を統一された枠組みで取り扱うため、相互の相関を利用することにより高精度な声質変換を実現することができる。また、近年、音声認識や音声合成で適用されたベイズ基準を適用し、あらかじめ収集された多量の背景データを事前情報として利用することにより、所望の声質のデータが少量しか得られない場合においても品質の高い変換音声が得られる手法を提案する。以上の目的に対し、本年度はスペクトル・基本周波数・継続長の同時変換のためのモデル構造について、理論的な枠組みを構築した。また、多量の事前データを有効に利用するためのモデル構造として、因子分析に基づくモデル構造を構築し、声質変換のためのプログラムの実装を行った。予備実験の結果から、導出した学習アルゴリズムが適切に動作していることを確認した。また、因子分析に基づいたモデルを事前分布として用いるための理論的枠組みについても検討を行った。以上のように最終的に構築する声質変換モデルのための要素技術が揃いつつあり、順調に進展している。
2: おおむね順調に進展している
本研究では、スペクトル・基本周波数・発話速度の同時変換手法の確立が目的であるが、これに対して本年度は、スペクトル・基本周波数・発話速度の同時モデリングについての理論的な整備が完了し、評価実験のための基盤が整いつつある。また、多量の背景データを利用する因子分析に基づく声質変換モデルについては、理論的な整備にとどまらず、計算機上でのプログラムの実装および予備実験を実施し、適切に動作していることを確認した。このモデルは、研究目的に挙げたベイズ基準に基づく声質変換において、重要な役割を担う部分であり、最終的に構築する声質変換モデルのための要素技術が順調に揃いつつある。さらには、本研究を進めていく中で、提案法のベースとなっているガウス混合モデルに基づく声質変換において、新たな改善手法を考案し、評価実験において実際に音質が改善されることを示した。今後実施を予定している多量のデータによる評価実験においても、音声データベースの整備や実験環境の構築も順調に進行している。以上のことから、本研究は概ね順調に進展していると判断できる。
これまでの研究は概ね計画通りに進捗しており、今後も当初の計画通りに研究を進めていく。具体的には、スペクトル・基本周波数・継続長の同時変換のためのモデルを構築し、評価実験を通じて提案手法の有効性を検証する。また、ベイズ基準による声質変換のための事前分布となるモデル構造について、昨年度、順調に理論的な検証や実装が進んでいるため、この手法を用いて多量の背景データを利用した声質変換手法を構築し、有効性を検討していく。研究としては、理論的な整備から、評価実験を行うステージに移行してきているが、評価実験によってえられた知見を適切にフィードバックしていくことにより、理論的な枠組みを改善・強化していく。本研究では、音声を複雑な統計モデルでモデル化するため、計算機による実験では膨大な計算量が必要となる。また、現段階ではリアルタイムでの動作が困難な規模の実験であっても、将来のハードウェアの高速化を考慮して、計算能力の高い計算機を用いた実験を行っていく必要がある。このために必要なワークステーションを増強する予定である。また、評価実験においては、多量の音声データや実験に必要なデータを蓄積する必要があるため、現有の設備を活かしつつ、データの蓄積装置を増強することにより対処する。次年度の研究経費は、昨年度に比べ研究成果の発表のための旅費や論文公開のための費用を増強する。研究成果は、国内外の学会(日本音響学会,ISCA Interspeech, IEEE ICASSP等)で発表する予定である。
すべて 2014 2013
すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (8件)
IEEE Transactions on Audio, Speech, and Language Processing
巻: Vol. 8, Issue 2 ページ: 229-238
10.1109/JSTSP.2014.2305919
IEICE TRANSACTIONS on Information & Systems
巻: vol.E97-D, no.6 ページ: 1438-1448