Project/Area Number |
10J08861
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Perception information processing/Intelligent robotics
|
Research Institution | The University of Tokyo |
Principal Investigator |
齋藤 大輔 The University of Tokyo, 特別研究員(DC2)
|
Project Period (FY) |
2010 – 2011
|
Project Status |
Completed (Fiscal Year 2011)
|
Budget Amount *help |
¥1,400,000 (Direct Cost: ¥1,400,000)
Fiscal Year 2011: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2010: ¥700,000 (Direct Cost: ¥700,000)
|
Keywords | 音声合成 / 声質変換 / 構造的表象 / モデル統合 / 基本周波数パターン生成過程モデル |
Research Abstract |
本研究課題では、人間の音声コミュニケーションの解明とそのメディア情報処理による実現を念頭に、人間の音声活動に着眼した上で、構造的不変表象を基盤とした音声合成技術の高精度化に取り組んだ。これまでに提案した音声合成のフレームワークを幼児の音声模倣のモデルとして解釈し、空間探索問題としての定式化を行い、その評価関数に基づく最適化によって高精度化を実現した。本年度における研究課題の遂行では、話者性と言語性の分離・統合という観点から提案する音声合成技術をより柔軟なものにすることを検討した。この際、入力発声の話者性を所望の話者のものへと変えて出力する声質変換と呼ばれる技術に着眼し、これに音声翻訳や音声認識の知見から分離・統合の確率モデルを導入することで、言語性及び話者性のモデル化に別々の手法を利用し、これを統合できる可能性を示した。具体的には、言語性のモデル化について入出力話者間の変換関係を記述する混合正規分布モデルを、話者性のモデル化には出力話者の音声空間をモデル化する混合正規分布モデルをそれぞれ独立に学習・導入することで、従来変換関係の構築に必要だったパラレルコーパスの必要性を削減し、さらに変換性能の高精度化を可能とした。また本年度研究課題遂行の後半においては、韻律的特徴の全体的変化を捉えてモデル化することに着眼し、少数のパラメータでピッチパターンの時間変化をモデル可能な基本周波数パターン生成過程モデルと呼ばれるモデルに着目し、これを用いて入出力話者の基本周波数パターンを記述した上で、その対応関係を変化差分で記述手法について検討した。本年度の検討事項は、構造的不変表象との組み合わせを意図したものであり、それぞれフレームワークの確率的な拡張、および韻律的特徴への導入として位置づけられ、今後構造的不変表象との統合を通して、研究目的である柔軟な音声合成技術の完成を目指す。
|