研究概要 |
日本語における規則音声合成技術は1970年代から熱心に研究されてきたが,高品質な合成音声をめざして音声合成システムの規模は拡大を続け,膨大な計算機資源を必要とするようになった。しかし,医療・福祉機器や,カーナビゲーション装置など,音声による情報伝達を必要とするが,そのために多くの計算機資源をさくことができない応用は現在でも多数存在する。これらの応用向けに,高品質な合成音声を小さなシステムで提供できる手法の研究を行った。 提案する手法では,砂時計型ニューラルネットワークを用いて,音声の特徴を抽出した新たな音声合成パラメータを生成する。これまでの基礎的な研究に続き,今年度は砂時計型ニューラルネットワークによるLSPパラメータの学習及び再現に関する本格的な実験を行った。多段化した砂時計型ニューラルネットワークに,日本語5母音のLSPパラメータを学習させ,十分な精度でLSPパラメータを再現できることを確かめた。 さらに,本手法を用いて合成した日本語5母音について,聴覚による主観評価実験を行い,合成音声の品質評価を行った。この結果,本法により再現された日本語5母音が,安定して正しく聞き取られることを示した。この結果については,国際学会(AROB 9^<th> '04)で発表している。
|