研究課題/領域番号 |
26730100
|
研究機関 | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
研究代表者 |
亀岡 弘和 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, その他部局等, 研究員 (20466402)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 音響情景分析 / 深層学習 / 多重音解析 / 音響イベント検出 / 音源分離 / 到来方向推定 / 残響除去 / 高速学習アルゴリズム |
研究実績の概要 |
本研究では,音響波動の物理的性質と人間の聴覚機能をヒントにし,計算機による高精度な音環境理解(音響情景分析)機能を実現することを目的としている。2015年度は主に以下の検討を行った。 (1)音声のスペクトル系列とケプストラム系列の同時強調:従来のスペクトル領域音声強調手法では未知雑音環境下においても雑音や残響の重畳過程モデルを用いることで雑音・残響成分を大きく抑圧することができる利点がある一方で,雑音・残響成分とともに音声信号まで損傷する傾向があり,必ずしも聴感上品質の高い音声が得られないことが課題であった。本研究では,聴感上の品質の高さを保証しながら音声を強調することを目的としたスペクトル領域音声強調手法の検討を行った。 (2)潜在系列隠れマルコフモデルによる音声特徴量系列の確率モデル化:スペクトルのデルタ成分(時間微分)は音声の知覚的な自然性に大きく関係する量であることが知られ、音声合成においてはスペクトルのデルタ成分をいかに音声のものらしく再現することは重要課題の一つである。一方、音声の自然性の回復は音声強調においても重要課題である。本研究では、動的成分と静的成分との間の拘束関係を陽に考慮に入れた時系列の確率モデル(潜在系列隠れマルコフモデル)を提案し、当該モデルに基づく音声強調手法の検討を行った。 (3)波源拘束差分方程式に基づく音響信号の確率モデルと音源定位アルゴリズム:点音源からの球面波伝播を仮定すると、ある観測点における音圧の空間微分、時間微分と音源位置の間には物理的な拘束関係が成立する。本研究では,この拘束式に基づいて各マイクロホンにおける音圧の確率モデルを導出し,最尤法による音源位置の高速・高精度な推定方法を検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
研究の構想・ビジョンが明確であり,前年度から計画と準備を入念に行えた点が大きい。
|
今後の研究の推進方策 |
昨年度と一昨年度の検討により音声や音響波動の確率モデルの基盤が整ったので,今後はこれらをさらに発展させ,より高精度な音源分離,音源定位,音声強調手法の開発を目指す。さらに,これらの技術を小型ハードウェアで実装し,聴覚障がい者向けのウェアラブル音響情景分析デバイスやライフログ音響ダイアライゼーションデバイスを開発することを考えている。
|
次年度使用額が生じた理由 |
国際会議に投稿する予定だった研究が当初予定より少し遅れ、昨年度中での投稿・発表に間に合わなかったため。
|
次年度使用額の使用計画 |
上述の検討内容を今年度に入り投稿したので、採録されれば当該使用額を参加費として使用する予定である。
|