研究概要 |
高速コンピュータ及び高速通信網の発達により、音声や映像を用いた通信や処理、すなわちマルチメディア通信処理が進展しつつある。音声を用いた高度のヒューマンインターフェースとしての音声合成技術や音声自動認識も実用化されつつある。しかし、これらの技術は、主として西欧語、日本語、中国語などの主要な言語に対するものであり、必ずしも主要でない言語に対応した音声合成・認識の研究は進展しているとはいえない。そこで本研究では,琉球方言の音声合成システムを発展させた汎用音声合成システムを、アジアのいくつかの言語に適用し、これらの言語にも応用可能な、より汎用的な音声合成システムを構成した。 具体的には、我々がこれまでに開発した琉球方言の音声合成プログラムを拡張し、モーラ単位であったものを半音節に、ピッチアクセントだけであったものを声調や強さアクセントも含むようにし、より多くの言語の音声合成システムの開発を容易にした。これをまずタイ語,ヴェトナム語,バングラデッシュ語に適用し評価した。まず、音声合成シェルを用いて第1ヴァージョンの音声合成システムを構成した。次に、これにより合成された音声の品質を評価し、実用に供せられる品質にするために必要な要素項目を明らかにし、これらを改良した。具体的には、まず明らかにすべきこととして、タイ語やヴェトナム語における声調の高精度合成法、バングラデシュ語における鼻音化音声の高精度合成法を取り上げた。これらを改善することにより、音声合成シェルを拡張した。 これらの知見を応用してアムハラ語(エティオピアの公用語)の音声合成システムを構成した。ここでは、長さアクセントに関して新たな知見が得られた。さらにこのシステムを、ニカラグア語の音声合成およびミャンマー語の音声合成へと拡張した。
|