研究概要 |
本研究では、ある程度広い領域内のあちらこちらで発せられた会話音声を、その位置と発話内容の両方を圧縮して記録する方式を提案することを目的とするものである。この技術は、例えば、会議における発話者と発話内容を同時に音声メディアに記録したいという場面で有用である。この目的を実現するために、次のふたつの技術課題を解決する必要がある。ひとつは,各場所ごとに明瞭度がある程度高い音声を得ることである。もうひとつは、得られた音声を圧縮して記録することである。今年度は、ひとつ目の課題を解決するために、M.S.Brandsteinにより提案された「セル方式に基づくビームフォーミング」に着目し、その性能を追試検証すると共に、本研究課題への利用可能性について検討を行った。その結果、この手法により6〜13dB程度のSIRの改善が実現でき、この数字は、LCMVや遅延和に基づく手法よりも大きいことが確認された。また、この手法では,空間を幾つかのセルに分割して処理することから、今回の研究内容とも相性がよいと考えられる。 一方、得られた音声を圧縮する技術として、PN系列を用いて各セルにおける音声信号を広帯域に分散させ、その分散させた信号をセル間で足し合わせることで必要となるデータ量を圧縮する手法を提案し、その予備的な検討を行った。再生するときには、必要とするセルの音声データを拡散する際に用いたPN系列で逆拡散を行うことで、その信号のエネルギーを音声帯域に集中させ、他の信号のエネルギーに対するSNRを高めることで発話内容を聞き取れるようにしようというものである。検討の結果、足し合わせる数が少ない場合には、一定の効果が確認できたが、足し合わせる数が増えるにしたがって、再生音の明瞭度が著しく低下し、発話内容を聞き取ることが困難になることが判明した。
|