2008 Fiscal Year Annual Research Report
時変複素音声分析を用いた周囲雑音に頑健な基本周波数推定とIP電話、楽音への応用
Project/Area Number |
20500158
|
Research Institution | University of the Ryukyus |
Principal Investigator |
舟木 慶一 University of the Ryukyus, 総合情報処理センター, 講師 (30315486)
|
Keywords | 音声のFO推定 / 音声のフォルマント推定 / 雑音に頑健 / 時変複素音声分析 |
Research Abstract |
人間が発声する声の高さである音声の基本周波数(FO)の正確かつ信頼できる推定は、音声符号化や音声強調などの音声処理における重要な要素技術である。しかし、これらの音声処理は雑音環境下で用いられるため、周囲雑音によりFOの推定精度は劣化し、音声処理の性能も劣化する。したがって、周囲雑音すなわち加法性の雑音に頑健な、FO推定アルゴリズムが必要とされている。本研究では、周囲雑音にも頑健な音声のFO推定方式の高精度化と、IP電話と楽音への応用を行う。具体的な方法論として、研究代表者が研究している解析信号に対するロバスト時変複素音声分析を用いて、各サンプルでのスペクトルを推定し、スペクトルのピーク推定によりFOやフォルマントを推定する。推定されたFOやF1(第1フォルマント)を予備選択値として、既に提案した自己相関/AMDFを用いるフレームベース方式により精密な推定を行う。さらに、フォルマント推定性能の評価も行う。 2008年度は、ピーク推定によるFO推定を評価し、同様に推定されるフォルマント推定の精度を評価した。MMSE、ロバストELS分析、前向き後向き線形予測基準ELS分析によるFO推定精度を比較した結果、ELS分析が最も良好な推定精度を得ることが確認されたが、推定精度としては、女性音ではそれなりの精度が得られるが、男性音では低い推定精度しか得られない。しかし、フレームベース方式の予備選択としては活用できる見込みが得られた。この研究成果は、2008年6月に北海道大学(札幌)で開催されたIEICES IP研究会にて報告した。また、フォルマント推定精度では、非IRS音声では、従来方式である実LPC分析に基づく推定法に比べ、Pink雑音でかなり高い雑音レベルでなければ、優位性は見られなかった。IRS音声に対して、評価を行う必要がある。この研究成果を、2009年3月に東工大(東京都)で開催された日本音響学会春季研究発表会にて報告した。
|