2015 Fiscal Year Annual Research Report
人間の聴覚システムの模倣に基づく自律的音響信号処理の研究
Project/Area Number |
15J09992
|
Research Institution | The University of Tokyo |
Principal Investigator |
中村 友彦 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2015-04-24 – 2017-03-31
|
Keywords | 多重音解析 / 音源分離 / ソースフィルタモデル / 連続ウェーブレット変換 / 位相推定 / 音楽音響信号加工 |
Outline of Annual Research Achievements |
音響信号から重畳された音源信号を分離・同定する多重音解析は,音楽・音声コンテンツの検索など様々なシステムを構築するための基礎技術となりうる.これまで多重音解析に対して聴覚・音響信号処理・機械学習の研究コミュニティで強力なアプローチが提案されてきた.しかし,これらのアプローチで用いられた手がかりは互いに矛盾しないにも関わらず,問題設定や着目する性質の違いによってそれぞれのコミュニティで独立に研究が進められているのが実情である.本研究では,これらの手がかりをまとめ上げ数理的に組み込んだ1つの最適化問題として定式化することで,聴覚・音響信号処理・機械学習にまたがる多重音解析技術の開発に取り組んだ. 本年度は,楽音や音声の生成過程をよく説明できるソースフィルタモデルをいかに連続ウェーブレット変換(CWT)領域で表現するかについて主に検討した.CWTは人間の聴覚フィルタバンクと類似した周波数解像度をもつ時間周波数表現を与えるが,基底波形同士が直交しないためソースフィルタモデルなどの時間領域で定義される信号モデルとの対応関係を導出することが容易ではない.これに対し,解析的な時間信号モデルを元にCWT領域でのソースフィルタモデルを記述することで私が以前提案した手法(Nakamura+2014)を拡張し,ソースフィルタモデル導入の有効性を確認した.この手法は国内研究会で発表賞を受賞した.また,適切な仮定を置くことで基底波形が直交した場合と同様にソースフィルタモデルをCWT領域で表現できることを示した.この手法については査読付き国際会議で発表した. さらに,振幅スペクトログラムからの位相推定や音声の声道スペクトル推定に関しても新手法を提案し,どちらも国内学会で発表した.これらの成果は博士論文の一部としてまとめ,東京大学大学院情報理工学系研究科研究科長賞を受賞した.
|
Research Progress Status |
翌年度、交付申請を辞退するため、記入しない。
|
Strategy for Future Research Activity |
翌年度、交付申請を辞退するため、記入しない。
|