本研究では、異種情報を用いて音声特徴空間上の識別能力を高めることにより音声認識の性能を向上させることを目的とする。 最近の深層学習技術では、殆どの音声認識システムが単一の音声単位を基に構築されるため、膨大なデータを用いても音声の多様性を十分にはモデル化できない問題が存在する。その解決策として、従来の文脈的拡張音声単位と完全に異なる時間的拡張の音声単位である音素片を導入し、異種性の高い音声特徴空間の構築を提案する。 提案した異種音声単位による高分解能音声特徴空間が従来の生成モデルから最先端の深層学習モデルまで幅広い音声認識システム上で有効であることが、実応用の音声検索語検出タスクを対象に確認できた。
|