2023 Fiscal Year Annual Research Report
人間の介入可能性を考慮した音響情景分析のための深層分析合成基盤の開拓とその深化
Project/Area Number |
23H03418
|
Allocation Type | Single-year Grants |
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
中村 友彦 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50866308)
|
Co-Investigator(Kenkyū-buntansha) |
高道 慎之介 東京大学, 大学院情報理工学系研究科, 講師 (90784330)
矢田部 浩平 東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Keywords | 音響情景分析 / 人間介入型 / 深層分析合成 / 音源分離 |
Outline of Annual Research Achievements |
本年度は,深層分析合成に利用可能な信号処理モジュールについて研究を行った.具体的には,楽音でよく用いられるオーディオエフェクタを微分可能なモジュールとして用いて,深層学習モデルと組み合わせる手法を検討した.特に,微分可能なモジュールとして実装されたコンプレッサーを深層学習と組み合わせることで,加工済みの音響信号から適用されたコンプレッサーのパラメータを推定する方法を検討した.この検討から,コンプレッサーのパラメータの種類により,推定難度に差があることを明らかにした.また,音楽では複数種類のエフェクタを適用して所望の音響信号に加工することが多い.そこで,複数のエフェクタが適用された音響信号から,原信号とそれらのエフェクタの適用順とパラメータを推定する方法も検討した.提案手法によりある程度の精度でエフェクタの種類を推定できた.また,推定したエフェクタの情報を用いることで,信号の復元性能が向上することも示した. また,音声に対する深層分析合成手法として,音声強調(音声と雑音が混ざった音から音声のみを抽出)と音声合成を内包した劣化音声(例えば,古い録音機器で収録された音声信号)からクリーン音声を復元する手法を提案した.具体的には,音響信号処理の知見をもとに,劣化音声を分析するモジュール,分析結果から音声を合成するモジュール,入力音声の劣化を模倣するモジュールからなる深層分析合成モデルを構築した.このモデルを適切な事前学習と組み合わせて,入力劣化音声を自己符号化することで,劣化前の音声信号なしに学習できる.音声合成実験により,劣化を含む歴史的音声からクリーンな音声をある程度復元できることを実証しただけでなく,劣化音声に含まれる劣化を他の音声信号に転写できることも確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
音楽に関する研究では,深層分析合成に利用可能な信号処理モジュールの検討を進めている.単音に対してではあるものの,推定に介入できる可能性を持ったモジュールが構築できており,来年度以降に繋がる研究成果を得た.これらの成果は国内会議において発表を行った.音声に関する研究に関しては,劣化音声のみから学習可能な手法を提案し,その成果は査読付き国際論文誌に採録された.そのため,全体として順調に進展している.
|
Strategy for Future Research Activity |
今年度得られた成果を基に微分可能な信号処理モジュールの検討を進める.また,それらの検討を基に混合音に対する手法構築にも着手する.
|
Research Products
(13 results)