2015 年度実施状況報告書

時空間音響信号モデリングと機械学習に基づく音響情景分析の研究

研究課題

研究課題/領域番号	26730100
研究機関	日本電信電話株式会社ＮＴＴコミュニケーション科学基礎研究所
研究代表者	亀岡弘和日本電信電話株式会社NTTコミュニケーション科学基礎研究所, その他部局等, 研究員 (20466402)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	音響情景分析 / 深層学習 / 多重音解析 / 音響イベント検出 / 音源分離 / 到来方向推定 / 残響除去 / 高速学習アルゴリズム
研究実績の概要	本研究では，音響波動の物理的性質と人間の聴覚機能をヒントにし，計算機による高精度な音環境理解（音響情景分析）機能を実現することを目的としている。2015年度は主に以下の検討を行った。（１）音声のスペクトル系列とケプストラム系列の同時強調：従来のスペクトル領域音声強調手法では未知雑音環境下においても雑音や残響の重畳過程モデルを用いることで雑音・残響成分を大きく抑圧することができる利点がある一方で，雑音・残響成分とともに音声信号まで損傷する傾向があり，必ずしも聴感上品質の高い音声が得られないことが課題であった。本研究では，聴感上の品質の高さを保証しながら音声を強調することを目的としたスペクトル領域音声強調手法の検討を行った。（２）潜在系列隠れマルコフモデルによる音声特徴量系列の確率モデル化：スペクトルのデルタ成分（時間微分）は音声の知覚的な自然性に大きく関係する量であることが知られ、音声合成においてはスペクトルのデルタ成分をいかに音声のものらしく再現することは重要課題の一つである。一方、音声の自然性の回復は音声強調においても重要課題である。本研究では、動的成分と静的成分との間の拘束関係を陽に考慮に入れた時系列の確率モデル（潜在系列隠れマルコフモデル）を提案し、当該モデルに基づく音声強調手法の検討を行った。（３）波源拘束差分方程式に基づく音響信号の確率モデルと音源定位アルゴリズム：点音源からの球面波伝播を仮定すると、ある観測点における音圧の空間微分、時間微分と音源位置の間には物理的な拘束関係が成立する。本研究では，この拘束式に基づいて各マイクロホンにおける音圧の確率モデルを導出し，最尤法による音源位置の高速・高精度な推定方法を検討した。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由研究の構想・ビジョンが明確であり，前年度から計画と準備を入念に行えた点が大きい。
今後の研究の推進方策	昨年度と一昨年度の検討により音声や音響波動の確率モデルの基盤が整ったので，今後はこれらをさらに発展させ，より高精度な音源分離，音源定位，音声強調手法の開発を目指す。さらに，これらの技術を小型ハードウェアで実装し，聴覚障がい者向けのウェアラブル音響情景分析デバイスやライフログ音響ダイアライゼーションデバイスを開発することを考えている。
次年度使用額が生じた理由	国際会議に投稿する予定だった研究が当初予定より少し遅れ、昨年度中での投稿・発表に間に合わなかったため。
次年度使用額の使用計画	上述の検討内容を今年度に入り投稿したので、採録されれば当該使用額を参加費として使用する予定である。

研究成果
(24件)

すべて 2016 2015

すべて雑誌論文 (1件) (うち査読あり 1件、謝辞記載あり 1件) 学会発表 (12件) (うち国際学会 5件) 図書 (1件) 産業財産権 (10件)

[雑誌論文] Generative modeling of voice fundamental frequency contours2015
- 著者名/発表者名
  Hirokazu Kameoka, Kota Yoshizato, Tatsuma Ishihara, Kento Kadowaki, Yasunori Ohishi, and Kunio Kashino
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  巻: 23 ページ: 1042-1053
- DOI
  10.1109/TASLP.2015.2418576
- 査読あり / 謝辞記載あり
[学会発表] 非負値行列因子分解を用いた欠損データ補間による超解像声道スペクトル推定2016
- 著者名/発表者名
  中村友彦, 亀岡弘和
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  大分県別府市
- 年月日
  2016-03-28 – 2016-03-29
[学会発表] Shifted and convolutive source-filter non-negative matrix factorization for monaural audio source separation2016
- 著者名/発表者名
  Tomohiko Nakamura, and Hirokazu Kameoka
- 学会等名
  2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2016)
- 発表場所
  Shanghai, China
- 年月日
  2016-03-20 – 2016-03-25
- 国際学会
[学会発表] ケプストラム距離正則化半教師ありNMF による音声強調2016
- 著者名/発表者名
  李莉, 亀岡弘和, 樋口卓哉，猿渡洋
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川県横浜市
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] 高速近似連続ウェーブレット変換による振幅スペクトログラムに対する実時間位相推定法2016
- 著者名/発表者名
  中村友彦, 亀岡弘和
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川県横浜市
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] 波源拘束差分方程式に基づく音響信号の確率モデル化と複数音源定位アルゴリズム2016
- 著者名/発表者名
  鈴木惇, 亀岡弘和
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川県横浜市
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] 非負値テンソル二重逆畳み込みによる残響環境下の劣決定音源分離2016
- 著者名/発表者名
  村田直毅, 亀岡弘和, 木下慶介, 荒木章子, 中谷智広, 小山翔一, 猿渡洋
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川県横浜市
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] 非負値行列因子分解に基づく欠損データ補間による声道スペクトル推定法の検討2016
- 著者名/発表者名
  中村友彦, 亀岡弘和
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川県横浜市
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] Modeling speech parameter sequences with latent trajectory hidden Markov model2015
- 著者名/発表者名
  Hirokazu Kameoka
- 学会等名
  The 25th IEEE International Workshop on Machine Learning for Signal Processing (MLSP2015)
- 発表場所
  Boston, USA
- 年月日
  2015-09-17 – 2015-09-20
- 国際学会
[学会発表] 潜在トラジェクトリ隠れマルコフモデルによる音声特徴量系列モデリング2015
- 著者名/発表者名
  亀岡弘和
- 学会等名
  日本音響学会2015年秋季研究発表会
- 発表場所
  福島県会津若松市
- 年月日
  2015-09-16 – 2015-09-18
[学会発表] Unified approach for audio source separation with multichannel factorial HMM and DOA mixture model2015
- 著者名/発表者名
  Takuya Higuchi, and Hirokazu Kameoka
- 学会等名
  The 2015 European Signal Processing Conference (EUSIPCO 2015)
- 発表場所
  Nice, France
- 年月日
  2015-08-31 – 2015-09-04
- 国際学会
[学会発表] Multi-resolution signal decomposition with time-domain spectrogram factorization2015
- 著者名/発表者名
  Hirokazu Kameoka
- 学会等名
  2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2015)
- 発表場所
  Brisbane, Australia
- 年月日
  2015-04-19 – 2015-04-24
- 国際学会
[学会発表] Lp-norm non-negative matrix factorization and its application to singing voice enhancement2015
- 著者名/発表者名
  Tomohiko Nakamura, and Hirokazu Kameoka
- 学会等名
  2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2015)
- 発表場所
  Brisbane, Australia
- 年月日
  2015-04-19 – 2015-04-24
- 国際学会
[図書] Applied Matrix and Tensor Variate Data Analysis2015
- 著者名/発表者名
  Kohei Adachi, Hirokazu Kameoka, Kohei Inoue, Noboru Murata, Deniz Akdemir, Manabu Iwasa, and Toshio Sakata
- 総ページ数
  136
- 出版者
  Springer
[産業財産権] 信号解析装置、方法、及びプログラム2016
- 発明者名
  亀岡弘和, 田尻祐介, 戸田智基, 中村哲
- 権利者名
  亀岡弘和, 田尻祐介, 戸田智基, 中村哲
- 産業財産権種類
  特許
- 産業財産権番号
  2016032414
- 出願年月日
  2016-02-23
[産業財産権] 信号解析装置、方法、及びプログラム2016
- 発明者名
  亀岡弘和, 李莉
- 権利者名
  亀岡弘和, 李莉
- 産業財産権種類
  特許
- 産業財産権番号
  2016032396
- 出願年月日
  2016-02-23
[産業財産権] 基本周波数パターン予測装置、方法、及びプログラム2016
- 発明者名
  亀岡弘和, 田中宏, 戸田智基, 中村哲
- 権利者名
  亀岡弘和, 田中宏, 戸田智基, 中村哲
- 産業財産権種類
  特許
- 産業財産権番号
  2016032411
- 出願年月日
  2016-02-23
[産業財産権] 基本周波数パターン予測装置、方法、及びプログラム2016
- 発明者名
  亀岡弘和, 田中宏, 戸田智基, 中村哲
- 権利者名
  亀岡弘和, 田中宏, 戸田智基, 中村哲
- 産業財産権種類
  特許
- 産業財産権番号
  2016032412
- 出願年月日
  2016-02-23
[産業財産権] 基本周波数パターン予測装置、方法、及びプログラム2016
- 発明者名
  亀岡弘和, 田中宏, 戸田智基, 中村哲
- 権利者名
  亀岡弘和, 田中宏, 戸田智基, 中村哲
- 産業財産権種類
  特許
- 産業財産権番号
  2016032413
- 出願年月日
  2016-02-23
[産業財産権] 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム2016
- 発明者名
  亀岡弘和, 中村友彦
- 権利者名
  亀岡弘和, 中村友彦
- 産業財産権種類
  特許
- 産業財産権番号
  2016031809
- 出願年月日
  2016-02-23
[産業財産権] 音響信号解析装置、音響信号解析方法、及びプログラム2016
- 発明者名
  亀岡弘和, 村田直毅
- 権利者名
  亀岡弘和, 村田直毅
- 産業財産権種類
  特許
- 産業財産権番号
  2016031801
- 出願年月日
  2016-02-23
[産業財産権] 音源定位装置、方法、及びプログラム2016
- 発明者名
  亀岡弘和, 鈴木惇
- 権利者名
  亀岡弘和, 鈴木惇
- 産業財産権種類
  特許
- 産業財産権番号
  2016032364
- 出願年月日
  2016-02-23
[産業財産権] 音源定位装置、方法、及びプログラム2016
- 発明者名
  亀岡弘和, 鈴木惇
- 権利者名
  亀岡弘和, 鈴木惇
- 産業財産権種類
  特許
- 産業財産権番号
  2016032365
- 出願年月日
  2016-02-23
[産業財産権] 音源定位装置、方法、及びプログラム2016
- 発明者名
  亀岡弘和, 鈴木惇
- 権利者名
  亀岡弘和, 鈴木惇
- 産業財産権種類
  特許
- 産業財産権番号
  2016032366
- 出願年月日
  2016-02-23

2015 年度 実施状況報告書

時空間音響信号モデリングと機械学習に基づく音響情景分析の研究

研究代表者

亀岡 弘和 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, その他部局等, 研究員 (20466402)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Generative modeling of voice fundamental frequency contours2015

著者名/発表者名

雑誌名

DOI

[学会発表] 非負値行列因子分解を用いた欠損データ補間による超解像声道スペクトル推定2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Shifted and convolutive source-filter non-negative matrix factorization for monaural audio source separation2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] ケプストラム距離正則化半教師ありNMF による音声強調2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 高速近似連続ウェーブレット変換による振幅スペクトログラムに対する実時間位相推定法2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 波源拘束差分方程式に基づく音響信号の確率モデル化と複数音源定位アルゴリズム2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 非負値テンソル二重逆畳み込みによる残響環境下の劣決定音源分離2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 非負値行列因子分解に基づく欠損データ補間による声道スペクトル推定法の検討2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Modeling speech parameter sequences with latent trajectory hidden Markov model2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 潜在トラジェクトリ隠れマルコフモデルによる音声特徴量系列モデリング2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Unified approach for audio source separation with multichannel factorial HMM and DOA mixture model2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Multi-resolution signal decomposition with time-domain spectrogram factorization2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Lp-norm non-negative matrix factorization and its application to singing voice enhancement2015

著者名/発表者名

学会等名

発表場所

年月日

[図書] Applied Matrix and Tensor Variate Data Analysis2015

著者名/発表者名

総ページ数

出版者

[産業財産権] 信号解析装置、方法、及びプログラム2016

発明者名

権利者名

産業財産権種類

産業財産権番号

2015 年度実施状況報告書

亀岡弘和日本電信電話株式会社NTTコミュニケーション科学基礎研究所, その他部局等, 研究員 (20466402)