2012 Fiscal Year Research-status Report
次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究
Project/Area Number |
23700195
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
能勢 隆 東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)
|
Keywords | HMM音声合成 / 対話音声合成 / 音声コーパス設計 / 音声パラメータ生成 / スタイル変換 / 歌声合成 |
Research Abstract |
本研究は、あたかも人間が話しているかのような,より多くの感情・発話様式・発話意図が自然かつ多様に変化する次世代の高品質音声合成システムの実現を目的としており、平成24年度は以下の項目について成果が得られた。 (1)対話音声合成用コーパスの構築:豊かな感情表現・発話様式(スタイル)を伴う話し言葉調の音声の合成を目的とし、従来の音韻バランスのみを考慮したコーパス設計ではなく、アクセント、スタイル、文末表現などを総合的に考慮した音声コーパス構築法を提案し、その有効性を示した。 (2)局所的系列内変動を考慮した音声パラメータ生成法の提案:従来の系列内変動を考慮した音声パラメータ生成法は発話毎のグローバルな分散情報のみを利用しており、スペクトルピークの過剰な強調により部分的に音質が劣化する場合があるという問題点があった。これに対し局所的な系列内変動をモデル化し、パラメータ生成時に利用することで、この問題を軽減し、より人間の音声に近い合成音声を生成できることを示した。 (3)多様なスタイル音声生成のためのスタイル変換法の提案:従来の統計的音声合成法では目標話者の目標スタイルの音声をあらかじめ用意する必要があった。これに対し不特定話者スタイル変換法を新たに提案し、目標話者の読み上げ音声のみから多様なスタイルを伴う音声を生成できることを示した。 (4)歌声合成におけるスタイル制御法の提案:歌声合成において、ユーザがスタイルとその度合いを直観的に変化させることができるように、重回帰隠れセミマルコフモデルに基づくスタイル制御法を歌声合成に適用し、その有効性を示した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
小規模音声コーパスによる検討は既に行い有効性を示しているが、より大規模な、あるいは多様なコーパスの設計、評価が未だ実施できていないため。
|
Strategy for Future Research Activity |
小規模音声コーパスに対する知見を利用して、より大規模な、あるいは多様なコーパスの設計、評価を実施する。
|
Expenditure Plans for the Next FY Research Funding |
未使用額の発生状況:小規模コーパスの設計のための理論構築、検討に予定より時間がかかったため、大規模コーパスを設計し、実際に音声収録を行いデータベースを作成する段階まで進むことができなかった。 研究費の使用計画:未使用額も次年度の計画(より大規模な、あるいは多様なコーパスの設計を行うための音声データベース作成)のために使用する。
|