2019 Fiscal Year Annual Research Report
Research and development of a voice quality enhancing method for alternative vocalizations by a laryngectomized person
Project/Area Number |
17K00258
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
佐宗 晃 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究グループ長 (50318169)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 音声分析 / 感情音声 / 声質改善 / 食道発声音声 |
Outline of Annual Research Achievements |
音声は最も重要なコミュニケーション手段であり、高齢者のみならず人が充実した社会生活を送るために欠かせない要素である。しかし、喉頭がんの進行により喉頭全摘手術を余儀なくされ、自分の声を失う高齢者は少なくない。不幸にして喉頭全摘出となった場合、電気式喉頭や、ゲップを音源とする食道発声法などの代替発声法が利用されるが、習得が困難で、明瞭性や自然性が大幅に劣化する。本研究課題では、食道発声音声から直接観測できないゲップ音源と声道特性とを高精度に分離し、喉頭全摘出前に収録した自分の音声から推定した声帯音源と入れ替えて音声を再合成することで、もとの声質に近い発声を可能にする声質改善装置の研究開発を目的とする。 昨年度までに、食道発声音声から声道特性を高精度に推定する音声分析法の研究開発を行ってきた。H31年度は、声質改善音声の合成に必要は基本周波数(F0)時系列の生成に関する検討を行った。本研究では、電気式人工喉頭にあるような発話開始から緩やかにF0が下降するような単純なF0生成ではなく、平常音声も含めた4種類の感情音声のF0時系列を、Generative Adversarial Networks(GAN)により生成する手法を検討した。具体的には、各感情の統計的性質を保持しつつ出来るだた多様なF0パターンを生成可能なGeneratorのモデル構造を、生成F0パターンの感情識別率と局所密度の2つの指標を用いて評価した。 音声合成に関しては、メルケプストラムのベクトル量子化コードを補助特徴量として、A-lawで振幅を8ビットに量子化した音声波形信号を、Extreme Learning Machine + Dilated Convolution + Residual Networkの構造で非線形予測する自己回帰モデルを構築し、母音の声質改善実験を行った。
|