研究概要 |
人間が発声する声の高さである音声の基本周波数(FO)の正確かつ信頼できる推定は、音声符号化や音声強調などの音声処理における重要な要素技術である。しかし、これらの音声処理は雑音環境下で用いられるため、周囲雑音によりFOの推定精度は劣化し、音声処理の性能も劣化する。したがって、周囲雑音すなわち加法性の雑音に頑健な、FO推定アルゴリズムが必要とされている。本研究では、周囲雑音にも頑健な音声のFO推定方式の高精度化と、IP電話と楽音への応用を行う。具体的な方法論として、研究代表者が研究している解析信号に対するロバスト時変複素音声分析を用いて、各サンプルでのスペクトルを推定し、スペクトルのピーク推定によりFOやフォルマントを推定する。推定されたFOやF1(第1フォルマント)を予備選択値として、既に提案した自己相関/AMDFを用いるフレームベース方式により精密な推定を行う。また、フォルマント推定性能の評価も行う。さらに、音声符号化、楽音の多重ピッチ解析、パケットロス隠蔽への適用も行う。 2009年度は、ピーク推定によるFO推定を音声符号化方式に適用した。Skype用に開発されたIETF iLBC(internet low bit rate codec)音声符号化方式に適用した。iLBC方式はLPCボコーダに基づく音声符号化方式で、音源を3段の適応コードブックで量子化している。1段目の適応コードブックの予備選択として、ピーク推定方式の推定値を用いた。その結果、よりバラつきの小さな遅延値の推定が行われ、音質の向上も確認された。この成果を、2010年3月に電通大で開催された音響学会春季研究発表会にて報告した。さらに、ロバスト複素音声分析の音声符号化への応用として、ITU-T G.711.1音声符号化方式の聴感重み付けフィルタへの適用とISO/IEC MPEG-4 ALS(オーディオロスレス)符号化の残差算出への適用を行い、評価をおこなった。ALSに関しては、実数分析で効果が確認されたが、複素分析やロバスト分析の効果は確認されなかった。この研究成果を、2009年6,月に北海道大学で開催された音声研究会と2010年2月にInnsbruckで開催されたIASTED SPPRA2010にて報告した。G.711.1に関しては、若干の音質向上が確認された。この研究成果を2010年3月に電通大で開催された音響学会春季研究発表会にて報告した。また、本研究の前段階の研究成果として、複素AR音声分析を用いたWienerフィルタによる音声強調の成果が、INTECH BOOK,「Recent Advances in Signal Processing(ISBN 978-953-307-002-5)」の1チャプターとして出版された。
|