本研究では,時間領域で直接音源分離を行う波形領域深層音源分離モデルと多重解像度解析との間のアナロジーを基に新たな音源分離手法を提案した.具体的には,離散ウェーブレット変換に基づくダウンサンプリング(プーリング)層を提案し,従来の波形領域音源分離手法に比べ,高精度に分離できることを示した.また,提案層を拡張し,事前に定めたウェーブレットだけでなく,深層学習モデルと同時にウェーブレットも学習できることを示した.この拡張により,タスクに応じてより適したウェーブレットを学習により得る方法を確立した.さらに,多チャネル音源分離や重唱分離へと拡張・適用し,提案法の導入により分離性能が向上することを示した.
|