研究課題/領域番号 |
19J21031
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 京都大学 |
研究代表者 |
上乃 聖 京都大学, 情報学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2019-04-25 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
3,100千円 (直接経費: 3,100千円)
2021年度: 1,000千円 (直接経費: 1,000千円)
2020年度: 1,000千円 (直接経費: 1,000千円)
2019年度: 1,100千円 (直接経費: 1,100千円)
|
キーワード | 音声認識 / 音声合成 |
研究開始時の研究の概要 |
近年、従来のモデルより簡潔な構造で音声認識を実現するEnd-to-End音声認識の研究が進められている。しかし、End-to-End音声認識は学習に音声とその書き起こしの対データを大量に必要とし、その準備は困難である。そこで本研究では、End-to-End音声合成を用いた対データ生成をベースに、End-to-End音声合成とEnd-to-End音声認識を統合することで、対訳が必要ない統合システムについて研究を行う。
|
研究実績の概要 |
研究の目的はEnd-to-End音声合成とEnd-to-End音声認識を統合することで、適用対象(タスク、ドメイン)のテキストのみがある条件でも音声との対データを構成し、一括で学習するシステムを実現することである。 今年度は音声認識と音声合成を効率的に統合でき、かつ音声認識の性能の低下が少ない表現を構成する方法の研究を行った。音声認識の性能の低下の原因のひとつとして挙げられるのが、実際に人間が話した音声(自然音声)と音声合成システムが生成した音声(合成音声)に差があることである。音声合成においては、通常テキストから人が聞くことのできる音声波形を作るのに必要な周波数スペクトル特徴量を予測するモデルを用いた後に、その周波数スペクトル特徴量を音声波形に変換するモデルを用いて、音声波形を生成する。周波数スペクトル特徴量は音声認識の訓練データとしても用いられ、生成された音声波形を再び周波数スペクトル特徴量に変換し、音声認識に用いる。 音声波形に変換するモデルには自然音声と合成音声の差異を埋める効果があるが、この波形生成に非常に時間がかかるという問題がある。そこで今年度は音声波形に変換するモデルを用いずに周波数スペクトル特徴量上で直接差異を埋めるネットワークを構築した。 提案手法では、生成された周波数スペクトル特徴量だけでなく、音声合成のタスクで利用可能な発話の音素系列情報も用いる。評価実験から、提案手法が音声波形に変換するよりも少ない処理時間で音声認識の拡張の効果が高いことを示し、また、発話の音素系列情報の利用も改善に重要であることを示した。
|
現在までの達成度 (段落) |
令和3年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和3年度が最終年度であるため、記入しない。
|