音声言語では、文字列として表わすことのできる言語情報のみならず、喜怒哀楽といった感情表現、硬い・やわらかい声、ニュースの読み方、小説の朗読調、自由会話といた日常生活の発話などさまざまな発声スタイルが存在します。音声信号に含まれる抑揚などの感性情報が人間のコミュニケーションにおいて重要な役割を果しており、テレビ番組、ビデオ映像などで字幕を介しての音声情報伝達には、感性情報をどのように付加して表現するかが重要な課題になっている。本研究はこの点に注目し、これまでの音声研究の成果を基礎に新しく文字情報と感性情報とを同時に伝える仕組みの開発を目指している。本研究は音声と文字情報を統合したテレビ字幕の多様な表現を実現するため、以下のように研究を進めた。 1.音声信号から非言語情報(高さ、強弱など)を抽出し、この非言語情報から得られる興奮や感情などに対する正常者の受け方について検討した。その結果、興奮やため息といった非言語情報については、80%以上の正解率で興奮の度合いやため息を推定することができた。また、感情音声についても、3文節4感情の音声について、76%の推定正解率が得られた。 2.以上の感情音声を文字の大きさ、色の種類などを変えることによって、音声と文字の統合利用による非言語情報の表現方法を考案した。字幕システムに利用して、70%の感情表現率が得られた。今後更に精度をあげる方法や難聴者に利用できる表現方法を検討します。
|