2010 Fiscal Year Annual Research Report
時変複素音声分析を用いた周囲雑音に頑健な基本周波数推定とIP電話、楽音への応用
Project/Area Number |
20500158
|
Research Institution | University of the Ryukyus |
Principal Investigator |
舟木 慶一 琉球大学, 総合情報処理センター, 講師 (30315486)
|
Keywords | 音声のF0推定 / 解析信号 / 複素音声分析 / ロバスト分析 / 音声符号化 / iLBC / 楽音の音高推定 / フォルマント推定 |
Research Abstract |
(1)時変複素スペクトルのピーク推定による時変F0推定の検討は完了している。IEEE DSP/SPE Workshopにて発表を行った。 (2)(1)による推定結果をF0の予備選択値として、既に提案したフレームベース方式(文献2,3)によるF0推定実験を行う。具体的な手順として、時変スペクトルのピーク推定によりF0とF1を予備選択する。推定されたF0とF1で探索範囲を制限して、文献2,3のフレームベース方法により、最終探索を行う。実験の結果、演算量を低減し、男性で良好な推定を実現している。平成23年度春季音響学会にて発表し、Interspeech2011他に投稿した。 さらに、フレームベース方式において、時変分析の効果を調べるために、フレームをピッチ予測ゲインに基づきピッチ性の強度に応じて4つのモードに分類し、モードごとに推定精度を比較した。その結果、ピッチ性の高いフレームでは時変分析の効果が確認された。これをInterspeech2011他で発表した。 (3)音声符号化への適用 Skypeで用いられているiLBC音声符号化の1段目の長期予測に(1)を適用した。演算量を低減しても音質の劣化は小さく抑えられている。平成22年秋季音響学会にて発表を行った。 (4)フォルマント推定精度の評価 フォルマント推定精度を評価したが、実数分析の方が良好な推定を実現する。より詳しい検討が必要である。 (5)IP電話のパケットロス隠蔽方式(PLC)への適用 IP電話のPLCとして、G.711 Appendix IにおけるF0推定に(1)を組み込み、その効果を調べる。雑音重畳音声で音質を評価する予定だったが、実験が終わっていない。平成23年度中に完了させる。 (6)楽音の多重ピッチ推定への適用 楽音は音声と異なり、線スペクトルの混合であるために、スペクトルのピーク推定による方法により、ある程度の推定が行えることが期待できる。(1)で評価を行った。その結果、単音では複素分析が良好な推定を行うことがわかった。ただし、時変分析やロバスト分析には優位性は確認できなかった。これを2011年6月のSIS研究会(石垣島)にて発表する。
|
Research Products
(6 results)