本研究課題では、人工知能の一分野である音声言語処理の技術を用いて、発表者にとって模範となる理想的な発表音声を自動生成することにより、発表の効果的な自主練習を支援するシステムの構築を目指している最終年度である2021年度は、以下の項目に取り組んだ。 【項目1】模範音声を生成するために、発表音声と同じ声質の自然な合成音声を生成する手法について検討した。具体的には、これまでに提案した、日本語のアクセントの特徴を考慮した音声合成手法を拡張し、合成音声の話者性を制御可能な音声合成モデルを構築する手法について検討した。複数の話者を含む音声言語データベースから学習された、話者の特徴を表す埋め込み表現を利用し、この埋め込み表現に基づく話者ベクトルの線形演算により、多様な声質の合成音声を実現できる可能性を示した。 【項目2】これまでに構築してきたシステムの要素技術である冗長表現の自動検出・除去や語彙の最適化モデルをさらに高精度化するために、これらの入力となる音声認識結果の精度改善に取り組んだ。具体的には、発表音声に含まれる話し言葉特有の問題(フィラーや言い淀み)を考慮したEnd-to-End音声認識モデルを学習するために、こうした非流暢的音響特徴に対応する書き起こし箇所をラベルに置き換える手法を提案した。また、発表音声に含まれる特定の話題に関連した単語や言い回しを高精度に認識するために、Density Ratio Approachの考え方を応用して、特定のドメインに特化した学習データを音声認識モデルの学習において効果的に利用する手法を提案した。
|