我々の研究は人間の聴覚シーン形成の過程に注目し、多くの音響イベントが混在する聴覚シーンの中から、いかに特定のストリーミングを分離抽出し、選択的に聞くことができるか、反響やノイズなどの影響をいかに排除するかを解明し、聴覚型処理の計算機システムを目指す。そのために我々は聴覚シーン形成における現象を量的に捕らえ、その相互関係を明らかにすることによって、計算機システムで十分応用できるモデルの構築を目的としている。このような聴覚処理のモデルが構築できれば、複合音の分離抽出はもちろん、今までの音声認識システムと全く違った聴覚型の音声認識システムが実現できる。この様なシステムは人間の聴覚で見られる高いレベルの環境ロバスト性を備えるので、実際の応用において非常に役に立つと期待できる。 すでに先行研究では、ボトムアップ的なアプローチで、2つの音響成分の時間のずれ、倍音関係からのずれ、周波数変調の相違、周波数距離などの要因について、音響心理学実験を通じて、量的な関係の解明を試みた。また、反響を加えた時にそれぞれの分離・統合要因がどう影響を受けるかについて調べた。さらに、先行音効果について、反響回避モデルを提案し、計算機シミュレーションにより評価を行い、モデルの妥当性を確かめた。 今年の課題はアプローチの方向を変え、トップダウン的な視点から、いろんな音(環境音など)がどのような構成をしているかについて調べる。従来では、音の時間・周波数分析を行う手法としてフーリエ変換が使われ、時間・周波数の分解能においてトレードオフ関係にある。われわれは音の時間周波数分解能が飛躍的に高いWigner分布を試みる。時間周波数分析によって、自然音の構成規則を解明し、聴覚シーン形成のルールが如何に働いているかについて検討する。その第一段階として、今年はWigner分布の計算方法の改良といくつかの環境音を対象に解析を試みた。
|