2018 Fiscal Year Annual Research Report
Multi-channel Audio Signal Processing Based on Sound-to-Light Conversion and Video Camera
Project/Area Number |
17F17049
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
小野 順貴 首都大学東京, システムデザイン研究科, 教授 (80334259)
|
Co-Investigator(Kenkyū-buntansha) |
SCHEIBLER ROBIN 首都大学東京, システムデザイン研究科, 外国人特別研究員
|
Project Period (FY) |
2017-11-10 – 2020-03-31
|
Keywords | 音光変換 / LED / マイクロホンアレイ / 分散センシング / ビームフォーミング / 音源分離 / 音源定位 |
Outline of Annual Research Achievements |
本研究の目的は、音を光に変換するセンサノードとカメラを組み合わせ、カメラを一種の多チャンネル音響デバイスとして用いる新たな多チャンネル音響信号処理の枠組みを構築することである。これらにより、従来は困難であった広範囲に分散するセンサノードからの音響情報の取得を容易にし、音響シーン認識、音源定位、音源強調などをカメラによって行う新しい音響応用システムを実現することを目指している。 2018年度は以下の研究成果を得た。1) 音強度情報からの音源定位を行った。具体的には,首都大学東京日野キャンパスの体育館において,多数の音光変換デバイス「ブリンキー」を配置し,ビデオカメラで撮影したブリンキーの光強度信号から,機械学習により画像上での音源位置を推定した。2) 前年度に引き続き,通常のマイクロホンアレイと組み合わせ、光信号を教師信号として用いる教師有りビームフォーミングを行い、その有効性を確認した。3) 複数音源を扱えるようにするため,ブリンキーで取得した音強度信号を非負値行列分解により分離する手法を考案し,実環境でも分離できることを確認した。さらに,4) 2)の拡張として,通常のマイクロホンアレイとブリンキーを組み合わせたマルチモーダルブラインド音源分離の理論を構築し,シミュレーションにより有効性を確認した。5) 音響シーン認識やイベント検出への応用として,人,自転車,バイクなどの通行の検出,研究室環境での複数人での会話といった実環境シーンでデータ取得を行い,分析法について検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
2018年度は以下の研究成果を得た。1) 音強度情報からの音源定位を行った。具体的には,首都大学東京日野キャンパスの体育館という実環境において,多数の音光変換デバイス「ブリンキー」を配置し,ビデオカメラで撮影したブリンキーの光強度信号から,機械学習により画像上での音源位置を推定した。2) 前年度に引き続き,通常のマイクロホンアレイと組み合わせ、光信号を教師信号として用いる教師有りビームフォーミングを行い、その有効性を確認した。3) 複数音源を扱えるようにするため,ブリンキーで取得した音強度信号を非負値行列分解により分離する手法を考案し,実環境でも分離できることを確認した。さらに,4) 2)の拡張として,通常のマイクロホンアレイとブリンキーを組み合わせたマルチモーダルブラインド音源分離の理論を構築し,シミュレーションにより有効性を確認した。5) 音響シーン認識やイベント検出への応用可能性を検討するため,人,自転車,バイクなどの通行の検出,研究室環境での複数人での会話,といった実環境シーンでブリンキーを配置したデータ取得を行い,データの分析法について検討した。
|
Strategy for Future Research Activity |
2019年度は以下の3つに重点をおいて進める。1) 音源定位の応用性を拡大するために,グラフCNNを用いた音源定位を検討する。ブリンキーを用いた音源定位に機械学習を用いる場合、学習時と評価時で、ブリンキーの位置が同じでなければならない制約がある。これに対し、近年提案されたグラフCNNニューラルネトワークは、入力ベクトルのグラフ構造もパラメータとして扱う枠組みであり、これをうまく音源定位に利用すれば、学習時と評価時でブリンキーの位置が異なっていても、再学習を不要にすることができる可能性がある。このための理論構築と実験を行う。 2)光強度信号を用いた教師ありビームフォーミングを複数音源に拡張する。具体的には,NMFで複数音源の混合強度信号を分離し、これを用いてビームフォーマで各音源を強調をする。シミュレーションと実験でその方法の性能を確認する。3) 音響シーン認識を初め,音光変換を用いた新たな応用を開拓する。
|
Research Products
(17 results)