2006 Fiscal Year Annual Research Report
任意のユーザーを対象とする統計的声質変換・制御法の構築に関する研究
Project/Area Number |
18680018
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
戸田 智基 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (90403328)
|
Keywords | 音声情報処理 / 音声信号処理 / 音声合成 / 声質変換 / 声質制御 / 音韻性 / 話者性 / 固有声 |
Research Abstract |
声質変換は、入力音声の言語情報を保ったまま話者性等の非言語情報を変換する技術である。既存の方式では、変換モデルを学習するために、入力話者と出力話者が同一内容を発声したパラレルデータ(50文対程度)が必須となる。そのため、入力・出力話者に対する負担が大きく、そもそもパラレルデータが収録不可能な話者間では変換モデルを学習できない。この問題を解決する方式として、特定の話者の声を任意の話者の声へと変換する一対多変換方式と、任意の話者の声を特定の話者の声へと変換する多対一変換方式を提案した。特定話者と多数の事前収録話者のパラレルデータを用いる事で、音韻性と話者性を分離して表現できる初期変換モデルの学習を実現した(実施項目1に相当)。また、未知の入力/出力話者に対する変換モデルを構築するために、初期変換モデルの教師無し適応を実現した(実施項目2に相当)。以上の処理を行う一手法として固有声変換法を提案し、一対多変換及び多対一変換においてその高い有効性を示した(実施項目2、3に相当)。一対多変換においては、少量パラメータ操作による変換音声の声質制御も実現した(実施項目3に相当)。さらに、話者正規化学習法を導入する事で、固有声変換法の性能改善を行った(項目外)。 声質変換の応用例として、言語非依存ボイスチェンジャー、肉伝導音声の品質改善、携帯電話音声の帯域拡張、発声障がい者補助、調音音響変換に基づく音声生成モデルの実現などが考えられる。今後これらの応用例において提案法の評価を行うために、音声データ収録を行った(実施項目4に相当)。さらに、各応用例において、これまでに我々が開発した従来方式の声質変換法の性能評価を行い、その高い有効性を確認した(項目外)。また、多対一変換アルゴリズムとして使用可能な話者選択法に関して、音声認識・対話においてその有効性を示した(項目外)。
|