Research Abstract |
本研究の目的は,話者映像の有無や,ピッチ,話速といった話声の性質,話者映像と話声の同期,話者の口の動きといったパラメータが,音韻知覚及び視聴者の感性情報にどのような影響を及ぼすか定量的に明らかにし,得られた知見に基づいて,高感性音声提示システムの構築法を検討することである. 今年度は,これ以降の実験で使用する話者映像,音声といった実験刺激の収録を行うと共に,特に話速,話者映像と音声のずれに着目し,話速を変化させた音声と通常速度の話者映像を組み合わせることにより発生する映像と音声のずれが音声明瞭度に与える影響を検討した.話速を遅くすることは特に高齢者に音声を提示する方法として有効とされており,一方で,話者映像も読唇(lip-reading)として音声聴取時に有効な情報であることが知られている. 作成された実験刺激のうち単語刺激を用いて,若年者と高齢者を対象に,音声刺激のみ提示時,音声刺激と映像刺激の同時提示時の単語了解度試験を行い,映像と音声の時間的ずれ,映像の付加などの要因が,単語了解度に与える影響について検討した.その結果,若年者,高齢者とも,単純に話者映像と通常速度の音声をずらして提示する場合に比べ,話速を遅らせた音声を用いて話者映像と音声が先頭では同期しているというような場合の方が,同じずれる場合でも,単語了解度の低下は少ないという興味深い結果が得られた.さらにこのような場合,200ms以内のずれであれば話者映像による読唇の効果も認められるといった知見も得られた.これらの知見は,来年度作成する高感性音声提示システムの基礎となるものであり,特に高齢者に優しいシステム構築という意味では,極めて重要な意味を持つ知見と考えている.
|