最近の深層学習技術は、多種多様な音声をより高次元の特徴空間でモデル化できるため、音声信号処理の分野においても飛躍的な性能向上が報告されている。しかし、殆どのシステムがまだ単一の音声単位を基に構築されるため、膨大なデータを用いても音声の多様性を十分にはモデル化できない問題が存在する。その解決策として、音声の多様性を十分にモデル可能な高分解能の音声特徴空間を、複数の異種音声単位を用いて構築することを目的として本研究を行っている。 過去2年間の研究で、正規分布を用いた生成モデル、単純なフィードフォワードニューラルネットワーク、そしてより高い性能が報告されたLSTM-RNN(Long short-term memory Recurrent neural network)の回帰的な時系列モデルまで、本研究の異種音声単位に基づく高分解能の音声特徴空間が効果的であった成果を基に、今年度は複数システムの多様な出力を効果的に統合するアルゴリズムの開発に重点を置いた研究を行った。 具体的には複数システムの統合における知識蒸留(knowledge distillation)の概念を導入した。異種音声単位の複数システムの事後確率を効果的に統合する手法を確立するため、ニューラルネットワークの最終層であるソフトマックスレイアの前後の段階でスコアヒュージョンを試した。従来手法の算術・幾何・調和平均や線形補間などと比較して事後確率の上限付き合計値によるスコアヒュージョンが最高性能である結果を得て、その研究成果をInterspeech2018に投稿した。また、音声検索語検出タスクへの成果についてInterspeech 2017で発表を行った。今後、高性能だが複雑であるシステムから有効的な情報のみを抽出して構成するシステムコンパクト化の研究において、本研究の上限付き合計値による統合手法を導入することが考えられる。
|