研究概要 |
情報爆発という特定領域テーマに対して、音情報、すなわち、i-explosion_soundという観点から、 (1)あまり使用されていない音響信号(単音音声に加えて、混合音声や音楽や環境音から音情報を取得することによる情報爆発の促進、 (2)ディジタル音響信号処理による爆発する音情報から質的複雑化の軽減、 という2つの側面について取り組んだ。主な研究項目は以下の通りである。 (1)混合音の認識:「三話者同時発話認識の高性能化・高速化」 これまで開発してきたシステムは,音源定位(steered beamforer)、音源分離(GSS,ICA)、ミッシングマスク生成、ミッシングフィーチャ理論による音声認識から構成されており、三話者が同時に発話した後、分離・認識して、応答するまでに約8秒かかっていた。これに対して、RASP-2信号処理装置を使用したシステム再構成、Flow Designerによるシステム内のモジュールインタフェースの統一、および、GAによる多数のシステムパラメータのチューニングを行い、認識応答速度の高速化(1.9秒と約4倍の高速化)、および,認識率の向上が達成できた。 (2)実環境への対応と実時間処理: 上記の三話者同時発話認識では、マルチメディア実験室(5m*7m)で実際の人を用いて実験が行えるレベルまで性能が向上した。また、混合音声だけでなく、ドラム音を含むポリフォニー音楽音響信号に対しても、ドラムパターンを認識し、実時間でドラム音を編集できるオーディオプレイヤーを開発した。これにより、ロボットが音楽からビートを聴き分け、トラックできるシステムの基礎技術を確立することができた。
|