研究概要 |
映像と音声を統合的に利用するマルチモーダル環境において,音声理解における話者映像の提示効果について着目し,その評価方法を検討した.本研究ではまず,通常映像とISDN映像について,話者映像効果を比較分析し,ISDN映像では,話者映像効果が低いこと,特に唇音においてその傾向が顕著であること,また多数の視聴者の中にISDN映像では話者映像効果の認められないものが30%程度あることを報告した.通信環境におけるISDNと共に,蓄積メディアにおいては JPEG, MPEGなどデジタル圧縮・再生技術が広く活用されるものと期待されており,これらの圧縮・再生映像についての比較評価が求められている,JPEGとは,静止画に利用される世界的に標準のアルゴリズムである.このJPEGで圧縮した映像を,実時間再生(30フレーム/sec. )するMJPEG(Motion JPEG)が実用化されている. 本研究ではMJPEGで再生した話者映像の提示効果についての実験をおこない,MJPEG映像では話者映像効果がISDNと異なっており,唇音に映像の効果が顕著であるが,非唇音では低いことが明らかになった.MJPEGの話者映像では,実時間再生が保証されているので,画質が多少劣化しても,動きが検知できる程度であれば,動的効果は十分に発揮される,それに対して画質は圧縮率と共に劣化するので,静的効果は低下すると理解される.これらの結果はテレビ会議や映像エンタテイメント等マルチメディアの開発に重要な知見である.
|