研究概要 |
発話者の映像を提示することによって,音声識別の精度が向上する効果を,話者映像効果と呼んでいる.ISDNのような通信メディアあるいはCDなどの蓄積再生メディアなどではデジタル的な圧縮・再生技術が使われているが,一般に映像の伝送・蓄積・表示の処理は高価であり,高価な代償を支払ったマルチメディアからえられるものが話者映像効果である. 現状の64kbitのISDN通信で伝送される映像では,通常映像に比べて有意に話者映像効果が低い.更に重要なことは,ISDN映像の話者映像効果には,個人差が大きく,通常映像には話者映像効果があってもISDN映像にはこれが認められない視聴者が30%程度存在することが明らかになった.今後のマルチメディアのデジタル的な圧縮・再生にはMPEGが多く用いられると考えられるので,本研究では,新たにMPEGによる動映像の圧縮・再生技術を導入し,MPEG動映像の話者映像効果の計測システムを構築し,精度の高い評価法を開発した. 従来,話者映像効果の測定においては,左右音声,混合音声提示法が用いられてきた.本研究では話者映像効果の測定精度をより向上する方法として,劣性音声提示法を採用している.この方法は,試験音声レベルを基準音声レベルの1/4から1/8レベルに下げる試験法で,話者映像効果のわずかな映像に対しても適用できるものと期待される. 平成10年度はこれら評価法を用いて,話者映像の画質,表示部位,撮像アングルと感性因子との関連に注目して分析を行う.
|