2007 Fiscal Year Annual Research Report
任意のユーザーを対象とする統計的声質変換・制御法に関する研究
Project/Area Number |
18680018
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
戸田 智基 Nara Institute of Science and Technology, 情報科学研究科, 助教 (90403328)
|
Keywords | 音声情報処理 / 音声信号処理 / 音声合成 / 声質変換 / 声質制御 / 音韻性 / 話者性 / 固有声 |
Research Abstract |
声質変換は、入力音声の言語情報を保つたまま話者性等の非言語情報を変換する技術である。前年度までに、従来の特定話者ペアに対する変換方式とは大きく異なる枠組みとして、任意の話者の声を特定の話者の声へと変換する多対一変換方式と、特定の話者の声を任意の話者の声へと変換する一対多変換方式を提案した。本年度は、多対一変換方式の適応データ量に対する頑健性を向上させるために、話者正規化学習法と最大事後確率推定に基づく固有声変換法を提案し、その有効性を評価した。その結果、約0.3秒といった極少量の発声を適応データとして用いた際においても、高い性能を持つ変換モデルを構築できることを示した(実施項目1に相当)。また、一対多声質変換方式において、声質表現語に基づく変換音声の声質手動制御を実現するために、重回帰混合正規分布モデルに基づく声質変換・制御法を提案し、その有効性を示した(実施項目2に相当)。さらに性能を改善する手法も提案し、その有効性を示した(項目外)。これらの研究と平行して、多対多声質変換法に関する検討も進めた(実施項目3に相当)。 声質変換の応用例として、肉伝導音声の品質改善、携帯電話音声の帯域拡張、発声障害者補助などを想定し、提案法の適用及び評価を行うための音声データ収録を行った(実施項目4に相当)。さらに、各応用例において、本研究課題で開発している声質変換法の基礎アルゴリズムの性能評価を行い、その高い有効性を確認した(項目外)。 以上の研究成果をまとめ、論文及び国際会議等で研究発表を行った。
|