研究課題/領域番号 |
19J21031
|
研究機関 | 京都大学 |
研究代表者 |
上乃 聖 京都大学, 情報学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2019-04-25 – 2022-03-31
|
キーワード | 音声認識 / 音声合成 |
研究実績の概要 |
本研究の目的はEnd-to-End音声合成とEnd-to-End音声認識を統合することで、適用対象(タスク、ドメイン)のテキストのみがある条件でも音声との対データを構成し、一括で学習するシステムを実現することである。本年度の計画では音声合成側では音響的に幅を持たせるように学習を行い、音声認識側ではその音響的に幅を持たせたデータを認識できるように、一括で学習できるように実現し、統合されたシステム上での複数話者対応を行うことを計画していた。 しかし、音声合成側で音響的に幅を持たせるように学習を行うと、音声合成の学習が単一話者と比較すると難しくなるという問題が存在する。またEnd-to-End音声合成の性質上、合成された音声が実際の人の音声として存在する音声(自然音声)として存在する保証はない。それらの問題により、音声認識のデータ拡張に用いた際に、改善が限定的であるという問題が存在する。 上記2つの問題を解決するために本年度では、音声波形の離散化を行い、音声合成の出力・音声認識の入力をその離散化された値(離散ID)に変更することで解決を図る。離散IDを用いることで簡略化し、音声合成のタスクの難しさを軽減し、実際のデータに近い出力を出すことができる。実験により、従来の枠組みのデータ拡張と比較し、音声認識のデータ拡張の効果が高いことを確認した。また、離散IDを用いることで音声合成のタスクが従来に比べ簡単になったこと、合成した離散IDが実際に存在するデータに近い値を出し、従来の手法と比較し、合成音声と自然音声の差が埋められていることを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度は、複数話者の音声合成を設計することで、音響的に幅を持たせ、音声認識器の学習が行い、音声波形を基準にデータの拡張を行った。品質上に限界があることと、共通の中間表現として、音声波形は処理効率が非常に悪い。 そのため本年度は、より適切な中間表現を分析を行った。具体的には音声波形の離散化を行い、離散IDを音声合成と音声認識の中間表現として用いることを提案した。音声波形の代わりに、音声合成器はテキストから離散IDを合成する。従来の音声波形を用いた音声合成を設計した際、実際の人の音声と合成された音声に差が依然として存在するという問題、複数話者の音声合成のタスクが難しいという問題を離散IDを用いることで解決を図る。音声認識器も離散IDを用いて認識を行うように設計を行い、合成された離散IDを用いて、データ拡張を実施する。 実験により、従来の音声波形を用いた音声認識のデータ拡張と比較し、データ拡張の効果が高いこと確認した。また、音声波形を生成した場合と比較し、実際の音声と生成された音声との差が音声波形と比較しても少ないこと、また離散IDを用いた音声合成のタスクが従来の音声を予測するタスクと比較して、簡単になっていることを確認した。 以上のことを確認したことで、End-to-End音声認識とEnd-to-End音声合成の統合を行う際に、より適切な中間表現を用いることができるようになったと考えられるため、順調に進展しているという評価を行った。
|
今後の研究の推進方策 |
本年度の計画は音声認識と音声合成の両モデルを統合していくことである。 【現在までの進捗状況】において、音声認識のデータ拡張を行う際に、音声認識と音声合成の中間表現として、従来の音声波形ではなく離散IDを用いることで音声認識と音声合成の差を埋めることを確認した。しかし、離散IDを用いたことで全体的な音声認識の性能の低下が見られた。 本年度は離散IDによる中間表現をもとに、音声認識の性能の低下が少ない表現の獲得を行う。 具体的には、離散IDをより適応対象(ドメイン)に適合するような表現にすることを計画する。現在使用している離散IDは音声波形から学習・抽出されたもので、このID列をもとに、音声認識の入力に用いる表現を獲得する必要があり、その表現はその離散ID列から学習される。本年度の計画では、音声合成により生成された離散ID列を音声認識に用いるだけではなく、その表現の学習にも用いる。音声波形から一度学習した離散IDをもとに、離散ID列を対象ドメインに近いテキストを用いて音声合成により新たに生成し、よりドメインに適合した離散IDを用いることで、音声認識の性能の低下を防ぐ。 また、その表現を用いて対データではない音声とテキストのみで両方の学習を行い、両方のモデルについてもう一方のモデルを用いて最適化を行い、それを繰り返すことで統合を行う。これにより学習データを多量に用意する必要がなくなる。
|