2012 Fiscal Year Annual Research Report
ロバスト音声合成の深化と多言語音声コミュニケーションへの展開
Project/Area Number |
24300071
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
小林 隆夫 東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
|
Co-Investigator(Kenkyū-buntansha) |
能勢 隆 東京工業大学, 大学院・総合理工学研究科, 助教 (90550591)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | テキスト音声合成 / HMM音声合成 / 自然発話音声 / 話者正規化学習 / 韻律イベント / ガウス過程回帰 / 共有決定木 / クロスリンガル音声合成 |
Research Abstract |
ロバスト音声合成技術の深化・発展を目指し、基本技術に関する理論的検討、既存提案手法の高度化と新手法の提案を行う共に、ロバスト音声合成の多言語への応用に関してタイ語、中国語、英語、インドネシア語について検討を行い、以下の成果が得られた。 表現性にロバストな音声合成法として、任意の目標話者の読上げ調スタイル以外の所望のスタイル音声を合成することを目的として、話者正規化学習を導入した新たな手法を提案した。提案手法は目標話者の目標スタイル音声が必要ないことから、時間とコストのかかるモデル学習用音声の収録が不要となり、多様な話者性による表現豊かな音声合成がより容易にできる特徴がある。また、合成音声品質の改善を目的として、ノンパラメトリックモデルに基づく新たな音韻モデル化手法を着想し、基礎的な検討を始めた。 自発音声・会話音声の合成に関しては、多様な韻律特徴のモデル化を可能とするために、基本周波数(FO)の無声音部分における観測値の不連続性を考慮し、従来の音韻単位ではなく韻律イベントを単位とする新たな統計的FOモデル化手法を提案し、実際の自発音声合成に対してその有効性を示した。また、既存の自発音声コーパスに加えて、インターネットのツィート文を対象とした音韻・韻律を考慮した音声コーパス構築法を提案した。 音声資源が乏しい言語の音声合成に関しては、FO量子化コンテキストを導入したモデル化手法によるタイ語音声合成の検討を進めると共に、インドネシア語の音声合成に向けた予備的な検討として、モデル化に必要となるコンテキストの評価を行った。 多言語の音声合成へのアプローチとして、平均声方式における共有決定木手法を言語の多様性に対して適用した新たなクロスリンガル音声合成手法を提案し、日本語・英語及び日本語・中国語のクロスリンガル音声合成について評価を行い、提案手法の有効性を確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究を4項目に分けて実施した結果、それぞれ当初計画した通りに研究が進み、成果が得られた他、ロバスト音声合成に関して新たな手法の着想とその検討を始めることができたことから、概ね順調に進んでいると判断した。
|
Strategy for Future Research Activity |
初年度の研究は概ね計画通り進んでおり、計画の特段の変更は不要なことから、当初の計画に沿ってこのまま研究を進めていく。
|
Expenditure Plans for the Next FY Research Funding |
音声データ収録を発注予定であったが、当初構想した発話文章数を収録すると想定した金額を超過することが判明し、発話内容や収録文章数の再検討が必要になったことから、収録を次年度に延期した。研究目的達成のために必要な発話内容を客観的・主観的観点から厳選した上で、収録を行う。
|