研究課題/領域番号 |
26730100
|
研究機関 | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
研究代表者 |
亀岡 弘和 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 研究主任 (20466402)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 音響情景分析 / 深層学習 / 多重音解析 / 音響イベント検出 / 音源分離 / 到来方向推定 / 残響除去 / 高速学習アルゴリズム |
研究実績の概要 |
音環境理解(音響情景分析)能力を計算に備えさせることを目的とした,主に以下の研究を行った。 (1)音源分離・残響除去・音響イベント検出・到来方向推定の統合的アプローチ:音源分離,残響除去,音響イベント検出,到来方向推定の問題がそれぞれ相互依存関係にあるという点に着目し,これらを同時最適化問題として統合的に解決するアプローチを世界で初めて提唱した。その効果を実環境実験により示した。 (2)制約付きボルツマンマシンの高速学習アルゴリズム:人間は音環境を理解する上で,周囲の音響信号が何の音であるかを識別するプロセスが存在するが,このような識別能力を深層ニューラルネットワーク(DNN)により模倣するアプローチを検討中である。この検討に向け今年度は特にDNNの学習問題に焦点を当て,DNNの一種である Deep Belief Network (DBN)の新しい高速学習アルゴリズムを提案した。DBNの学習アルゴリズムとして有名なContrastive Divergence法よりも早く収束することを実験的に示した。深層学習のブームが現在世界で加速度的に進んでいるため,この成果のインパクトは大きい。 (3)計算論的聴覚情景分析とスパース表現の統合的アプローチによる多重音解析:人間は音を聴き分ける際,調波性や連続性や近接性といったある特定の条件を満たす時間周波数成分をひとまとまりの音と捉える機能とともに,異なるタイミングで繰り返し起こる時間周波数成分をひとまとまりの音として捉える機能を有している。前者の機能を模倣した多重音解析手法の枠組を計算論的聴覚情景分析といい,後者の機能を模倣した多重音解析手法の枠組をスパース表現アプローチという。これら二つの異なる観点によるアプローチの特長を同時に備えた多重音解析アプローチを世界で初めて提唱し,音楽音響信号の楽音分離実験によりその効果を示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
研究の構想・ビジョンが明確であり,前年度から計画と準備を入念に行えた点が大きい。また,研究協力者である連携講座学生らの活躍,アクティビティが想定以上であった。
|
今後の研究の推進方策 |
音源分離問題の成功の鍵は,いかに現実の音響現象に即した生成過程モデルを構築できるかにある。今後は音声合成における音声の生成過程のモデルをヒントにした音響情景分析アプローチ,波動方程式に基づいた音の時空間モデリングに基づいた音響情景分析アプローチを定式化・実装することを目標としている。また,これらを昨年度に考案したアプローチに組み込み,音源分離,音響イベント検出,音源定位などの各種タスクにおいて世界最高性能を目指す。さらに,これらの技術を小型ハードウェアで実装し,聴覚障がい者向けのウェアラブル音響情景分析デバイスやライフログ音響ダイアライゼーションデバイスを開発することを考えている。
|
次年度使用額が生じた理由 |
当初予定していた音の品質の主観評価実験を年度内に実施することを年度末ギリギリまで目指していたが,結局準備が間に合わず,実験参加者に支払う謝金のために確保していた予算を使い切ることができなかった。
|
次年度使用額の使用計画 |
上述の主観評価実験を今年度こそは実施する予定である。
|