2014 Fiscal Year Annual Research Report

高次統計量追跡による自律カスタムメイド音コミュニケーション拡張システムの研究

Research Project

Project/Area Number	23240023
Research Institution	The University of Tokyo
Principal Investigator	猿渡洋東京大学, 情報理工学(系)研究科, 教授 (30324974)
Co-Investigator(Kenkyū-buntansha)	小山翔一東京大学, 情報理工学(系)研究科, 助教 (80734459) 戸田智基奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328) 川波弘道奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80335489) 小野順貴国立情報学研究所, 大学共同利用機関等の部局等, 准教授 (80334259) 牧野昭二筑波大学, システム情報工学研究科(系), 教授 (60396190) 宮部滋樹筑波大学, システム情報工学研究科(系), 助教 (50598745)
Project Period (FY)	2011-04-01 – 2016-03-31
Keywords	音情報処理 / 音源分離 / 音声認識
Outline of Annual Research Achievements	2014年度までにおいて、ベイズ型推定において高次統計量解析を行っていた際に、ベイズ推定型の目的音推定器に関して、ある特定内部パラメータに0ではない一定値を加えたところ、聴覚品質を不変に保つ条件と等価である4次統計量の不動点が生じた。本4次統計量不動点現象は、ベイズ型推定器の中でもある特定の手法（音声振幅スペクトルに特定のレイリー分布を仮定するもの）に関するものであった。しかし、この発見を、他の一般化された手法（分布形状に自由度を有するカイ分布を仮定するもの）へ拡張することは大変学術的に意義があるが、その確証はまだ得られてないことより、それを急きょ研究する必要が生じた。また、4次統計量自体は、時系列の順序（波形データの並び）を考慮しない量だが、ベイズ型推定器の場合、そのパラメータ設定によって時系列に相互の関係が生じ、入力時系列の順序と高次統計量の変化にある関連が生まれることも実験から示唆された。研究遂行上、この現象の本質を見極めることは不可欠であるため、ベイズ推定型推定の聴覚不動点の検証、一般化推定の聴覚不動点の検証、時系列の高次統計算出法と聴覚印象対応、ベイズ型音声振幅推定法の聴覚的評価を実施する必要が生じた。上記の検討事項に関して解析的・実験的な評価を行ったところ、予想通り、一般化された事前分布を持つベイズ型音声推定器においてその事後SN比に関するパラメータにバイアスを加えたところ、聴覚品質を不変に保つ4次統計量の不動点が確認された。また、非常に興味深いことに、この不動点は全ての事前分布（任意の形状母数を持つカイ分布）に関して生じるわけではなく、スパースな分布形状を仮定する場合には不動点が消失する現象も確認された。結論として、音声を良く表すスパースな事前分布を利用する際のトレードオフ現象（良い音声事前分布は必ずしも聴覚品質不変にならない）が発見された。
Research Progress Status	27年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	27年度が最終年度であるため、記入しない。

Research Products
(4 results)

All 2015

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (2 results) (of which Int'l Joint Research: 2 results, Invited: 1 results)

[Journal Article] Multichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restoration2015
- Author(s)
  D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo, and S. Nakamura
- Journal Title
  
  IEEE/ACM transactions on audio, speech, and language processing
  
  Volume: 23 Pages: pp. 654-669
- DOI
  10.1109/TASLP.2015.2401425
- Peer Reviewed
[Journal Article] Suppresion of noise and late reverberation based on blind signal extraction and wiener filtering2015
- Author(s)
  F. D. Aprilyanti, J. Even, H. Saruwatari, K. Shikano, S. Nakamura, and T. Takatani
- Journal Title
  
  science and technology
  
  Volume: 36 Pages: pp. 226-239
- DOI
  http://doi.org/10.1250/ast.36.302
- Peer Reviewed / Open Access
[Presentation] Statistical-model-based speech enhancement with musical-noise-free properties2015
- Author(s)
  H. Saruwatari
- Organizer
  2015 IEEE International Conference on Digital Signal Processing (DSP2015)
- Place of Presentation
  Singapore, Singapore
- Year and Date
  2015-07-24
- Int'l Joint Research / Invited
[Presentation] Statistical modeling of binaural signal and its application to binaural source separation2015
- Author(s)
  Y. Murota, D. Kitamura, S. Koyama, H. Saruwatari, and S. Nakamura
- Organizer
  IEEE international conference on acoustics, speech, and signal processing (ICASSP)
- Place of Presentation
  Brisbane, Australia
- Year and Date
  2015-04-22
- Int'l Joint Research

2014 Fiscal Year Annual Research Report

高次統計量追跡による自律カスタムメイド音コミュニケーション拡張システムの研究

Principal Investigator

猿渡 洋 東京大学, 情報理工学(系)研究科, 教授 (30324974)

Research Products

[Journal Article] Multichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restoration2015

Author(s)

Journal Title

DOI

[Journal Article] Suppresion of noise and late reverberation based on blind signal extraction and wiener filtering2015

Author(s)

Journal Title

DOI

[Presentation] Statistical-model-based speech enhancement with musical-noise-free properties2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Statistical modeling of binaural signal and its application to binaural source separation2015

Author(s)

Organizer

Place of Presentation

Year and Date

猿渡洋東京大学, 情報理工学(系)研究科, 教授 (30324974)