研究課題/領域番号 |
20K19818
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 東京大学 |
研究代表者 |
中村 友彦 東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2022年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2020年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
|
キーワード | 音響情景分析 / 時間領域深層学習 / 多重解像度解析 / 音源分離 / 音響信号処理 / 深層学習 / 機械学習 |
研究開始時の研究の概要 |
混合音から各音源信号を分離する技術である音源分離において,近年信号波形を直接入力・出力する時間領域深層学習が有望な結果を示している.しかし,時間領域深層学習では,高性能な音源分離を実現するように各構成要素のパラメータが学習されるため,各構成要素の機能は明確ではなく,発見的に研究が行われているのが実情である.一方,音響信号処理分野で提案された多重解像度解析は,機能が明確な構成要素を用いて全体として所望の信号解析機能を有するよう設計されている.本研究では,時間領域深層学習と多重解像度解析を融合し,両者の利点を兼ね備えた新たな音源分離手法(多重解像度深層分析)の創出を目指す.
|
研究成果の概要 |
本研究では,時間領域で直接音源分離を行う波形領域深層音源分離モデルと多重解像度解析との間のアナロジーを基に新たな音源分離手法を提案した.具体的には,離散ウェーブレット変換に基づくダウンサンプリング(プーリング)層を提案し,従来の波形領域音源分離手法に比べ,高精度に分離できることを示した.また,提案層を拡張し,事前に定めたウェーブレットだけでなく,深層学習モデルと同時にウェーブレットも学習できることを示した.この拡張により,タスクに応じてより適したウェーブレットを学習により得る方法を確立した.さらに,多チャネル音源分離や重唱分離へと拡張・適用し,提案法の導入により分離性能が向上することを示した.
|
研究成果の学術的意義や社会的意義 |
本研究では,時間領域で直接分離を行う深層音源分離モデル(時間領域深層学習)と,信号処理・ウェーブレット解析で培われてきた多重解像度解析を融合する分野横断的方法論を創出した.時間領域深層学習では,高性能な音源分離を実現するように各構成要素のパラメータが学習されるため,各構成要素の機能は明確ではなかった.一方,多重解像度解析は,音源によって適切に設計する必要があるものの,機能が明確な構成要素を用いている.本研究成果は,両者を統合することで深層学習の高性能性と信号処理の高い解釈性を両立する第一歩となるものである.
|