研究概要 |
本研究は,心理実験で使用される音声刺激の作成を支援すべく音声韻律変換システムの構築を主たる目的として行なわれた。心理実験での使用に耐えうる品質の合成音声を生成する必要があるため,ここでは分析合成に基付く手法を導入・改良した。開発したシステムの特徴としては, ・声道特性フィルタとしてLMAフィルタを使用(残差における白色性向上を目的としたもの)。 ・残差波形に対する時間領域PSOLA法に基付くピッチ変換(音声波形そのものにPSOLA法を適用した場合に生じるスペクトル歪みを回避するため)。 ・藤崎モデル(基本周波数パターン生成モデル)に基付くパラメータベースのピッチパターン編集。 ・波形伸長時における有声子音部の自動推定(有声子音部を伸長対象から除き,有声母音部のみを伸長対象とすることで合成音の自然性が向上)。 これらの中でその性能/特性が韻律変換後の合成音声の品質に最も影響を与える,有声部残差波形中のピッチパルス検出,及び指定されたピッチに基付く残差波形編集において,各々, ・局所的自己相関値を参照した初期ピッチパルス位置の決定,2段階閾値を利用した有声部の細分化,局所的及び大局的自己相関値を利用した最終的なピッチパルス位置の選択。 ・部分的零位相化による,品質劣化を抑えた残差波形編集,及び合成。 を提案し,種々の高さにピッチ変換した合成音声(男声/女声)の聴取実験により,その有効性を実証することができた。なお本システムは現在,国内外の関係研究者(音声学/言語学/心理学だけでなく,工学の分野を含む)に配布され,実際の研究の場で利用されている。現在更なる品質向上を実現すべく,ピッチ変換時のスペクトル変動に対するケプストラムレベルでのモデル化を検討している。
|