研究課題/領域番号 |
19J21031
|
研究機関 | 京都大学 |
研究代表者 |
上乃 聖 京都大学, 情報学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2019-04-25 – 2022-03-31
|
キーワード | 音声認識 / 音声合成 |
研究実績の概要 |
本研究の目的はEnd-to-End 音声合成と End-to-End 音声認識を統合することで、適用対象(タスク、ドメイン)のテキストのみがある条件でも音声との対データを構成し、一括で学習するシステムを実現することである。今年度の計画として、音響的な幅を持たせるために複数話者の音声合成を構築し、汎用性が上がることを確認することを挙げた。 複数話者の音声合成によって、単一話者の音声合成で音声認識器を学習するよりも音声認識の性能が良いことを確認した。 また、現在のEnd-to-End音声認識の入力として用いられている音声とEnd-to-End音声合成の出力として用いられる音声は人間が聞くことが出来る音声波形からもう一段階処理を行う必要がある。結果として、音声合成にとって最適な出力とする音声と、音声認識にとって最適な入力とする音声は設定が異なる。設定を無理にどちらかに合わせてしまうと、合わせた側モデルの性能が落ちてしまい、統合が難しくなる可能性がある。 そのため、統合を実現する上においては、両モデルの性能を落とさずにその設定の差を埋める必要がある。音声認識・音声合成の両面からどのようなデータの構造が最適かを分析を行った。 本モデルでは両モデルとも音声波形を入力、または出力とすることを基準とし、設計した。 音声合成では音声波形に戻す処理を行い、音声認識においては音声波形を入力とするモデルを構築、従来のモデルの精度と変わらないことを確認した。音声合成で生成された音声波形を音声認識の入力として扱うことで、設定の差異を解決することができる。どちらかの設定に合わせて、対データ生成を行うよりもより高精度に音声認識を学習することができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
複数話者の音声合成器を設計することで、音響的に幅を持たせることで音声認識器の学習が行えることを確認し、単一話者の音声合成よりも性能が良いことを確認した。また、音声認識の入力とする音声と音声合成の出力の音声の差を埋めるために、音声認識と音声合成の両面から分析を行った。 End-to-End音声認識においては近年、音声からもう一段階処理を行うことなく、人間が聞くことの出来る音声波形を入力とするモデルが提案されている。また、End-to-End音声合成においては人間が聞くことができる音声波形を生成するためにそのモデルのほかにもう一つモデルを用いている。 そこで、人間が聞くことができる音声波形を基準にデータの拡張を行った。 まず、音声合成については音声波形に戻す処理を追加し、最終的に音声波形を出力するようにした。 音声認識においては音声波形を入力とするモデルを構成し、そのモデルが従来のモデルと性能が変わらないことを確認した。 音声波形を基準としたデータ拡張を行なった結果、音声合成の出力を音声認識の入力に合わせて学習し、音声合成の出力をそのまま対データとして音声認識のデータ拡張を行うよりも、音声波形を基準に音声合成を出力し、生成された音声波形を基準に音声認識を学習させたEnd-to-End音声認識の精度が良いことを示した。また音声波形を出力する音声合成器においても複数話者の音声を用いることでより性能の良い音声認識器の学習ができることを確認した。
|
今後の研究の推進方策 |
【現在までの進捗状況】において音声合成を音声認識のデータ拡張に用いる場合、音声合成は音声波形を出力することが良いことが判明した。音声波形を音声合成の出力とすることで音声認識と音声合成の扱う音声の差異を考慮する必要がなくなるが、統合を実現する上においては1つ問題点がある。 それは、音声合成側で音声波形を出力するためにはもう一つ処理を挟む必要があり、結果として音声合成のの処理でも2つの処理が独立して存在する点である。 性能の上においては音声波形を基準にすることが望ましいため、音声合成と音声認識の統合を音声波形に行うことでより性能の良い統合されたモデルを構築していく。 手順として、End-to-End音声合成においては1つのモデルでテキストから音声波形を出力するように構築し、また、音声合成と音声認識を一括で最適化出来るような損失関数やモジュールを検討する。 その後に二つの手法を統合し、音声合成と音声波形を入力とする音声認識の統合を行っていく。音声波形を基準とすることで従来の音声合成と音声認識の設定の違いを吸収し、統合を行うことができる。 また先の計画で挙げたものは全て教師あり学習を想定しているため、音声とその書き起こしの対データがいずれかの処理で必須になる。つまり、学習データが多量に必要であり、その用意が困難な点を根本から解決していることにはならない。そのため、音声合成、音声認識の各モデル、あるいは両方のモデルについて教師なし学習について検討を行う。
|