2018 Fiscal Year Annual Research Report
人間の聴覚特性を考慮した残響・雑音環境下における音声信号処理の研究
Project/Area Number |
18J20059
|
Research Institution | University of Tsukuba |
Principal Investigator |
李 莉 筑波大学, システム情報工学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2018-04-25 – 2021-03-31
|
Keywords | 多チャネル音源分離 / モノラル音声強調 / 非負値行列因子分解 / 多チャネル変分自己符号化器 |
Outline of Annual Research Achievements |
本研究は,音が混ざっている混合音から人間の聴覚上かつ機械の認識上の両方における高品質な音を分離するシステムの構築を最終的な目標としており,信号処理・機械学習・聴覚にまたがる数理モデルの構築と拡張を行う.このような音源分離技術は,補聴器や音声入力システムなど人と人,人と機械間のコミュニケーションをサポートする広い範囲での応用が可能である.その他,新しい数理モデルの構築と拡張は学術的にも極めて重要である.研究実施1年目では,主に以下の研究を行った. (1)マルチチャネル信号に対して,従来の独立低ランク行列分析と呼ぶブラインド音源分離手法に深層生成モデルのスペクトログラムに対する強力なモデリング能力を取り込んだ音源分離・音源クラス識別を同時に解決するアプローチを新たに提案し,その分離性能を実験により検証した.更に,実用化のために高速アルゴリズムを提案し,提案法が高速で動作できることを実験で確認した.本提案手法に関しては,音響信号処理分野のトップカンファレンスであるICASSP 2019に採択されている.また,日本音響学会においても発表を行った. (2)モノラル音声強調に強力であることが知られている非負値行列因子分解(NMF)と呼ぶ枠組を拡張した識別的NMFモデルに対して,研究担当者が昨年度までに新たな基底学習アルゴリズムを開発し,音声を対象とした実験で提案法の有効性を検証した.今年度では,多種類の音響信号に対する提案法の有効性を検証するため,音楽データを用いて追加実験を行った.その結果をまとめた論文をIEEE/ACM Transactions on Audio, Speech and Language Processingに投稿した.また,本研究に関しては,IEEE Signal Processing Society Tokyo Joint Chapterより,学生賞を受賞している.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の計画では,1年目においては非負値行列因子分解(NMF)をベースとなる手法に関する理論拡張及び実験による検討を行い,2年目から深層学習の強力な関数表現力を取り込んだ手法に関する検討を予定しているが,実施1年目ではNMFをベースとなる手法の結果をまとめた論文をジャーナル投稿した上に,2年目に予定している内容を実施し,新たな手法の提案に成功し,国内会議において発表を行い,国際会議にも採択されている.
|
Strategy for Future Research Activity |
本年度で提案した音源分離手法は,音源分離性能が極めて高い一方で,従来の瞬時混合モデルを用いて定式化された手法と同様に残響に対する頑健性を欠けている.特に高速アルゴリズムは残響が長い環境下において性能が劣化してしまう現象を実験的に確認している.従って,2年目はまず提案手法が残響環境に対して頑健に動作できるように,残響を考慮した音源モデルを提案手法に取り組んで,その有効性を確認する.また,実用化可能な手法へと改良することを目標として,既知音源のみに対応可能な音源モデルを未知音源にも高精度な推定を行えるようなモデルへ拡張し,データ量を増やして有効性を検証する実験を行う. 識別的非負値行列因子分解のアルゴルズムと深層学習を取り込んだ提案手法の研究を進んた上に,その両方の知見を持ち,識別的モデルと深層学習を用いたモデルの利点を同時に生かして更なる音源分離性能を向上させることを考えている.
|
Research Products
(11 results)