研究概要 |
本研究では,音声の統計モデルとして音声認識の分野で広く用いられている隠れマルコフモデルに基づいて,任意のテキストから多様な声質や感情を含む様々な発話形式を表現することのできる音声合成システムを実現することを目的としている。任意のテキストから音声を合成するためには,任意の文章から音素列,アクセント型,形態素,アクセント句境界などを求めるテキスト解析部と,テキスト解析の結果得られたラベル列から音声を合成する音声合成部を構築する必要があり,本年度はテキスト解析部と音声合成部のそれぞれについて検討を行った。 テキスト解析を行う際には,形態素解析,構文解析,アクセント・読み情報の付与などを実現する必要がある。そこで,まず一般に公開されている自然言語処理ツールを用いた場合のテキスト解析の性能と合成音声の品質について予備的な検討を行った。その結果,テキスト解析に形態素・構文解析システムであるMSLRパーザを利用し,アクセントおよび読み情報をEDR日本語単語辞書から求めた場合,MSLRに付属する単語辞書中,発音情報を付加できたものが96.5%,その中で発音が一意に決まらないレコード数は4.8%となった。このテキスト解析部を音声合成部と組み合わせて非公式な受聴を行ったところ,任意の文章からの合成音声においても,自然な韻律を持つ音声を合成できることを確認できた。さらに,音声合成に使用する音声単位を,HMMに基づいてスペクトル・ピッチ・状態継続長を同時にモデル化する新たな手法を提案し,自然性の高い合成音声を生成できることを示した。 今後の課題として,テキスト解析部の性能の向上,音声合成に適したテキスト解析手法の検討,多様な声質,発話スタイルで音声を合成するシステムの構築が挙げられる。
|