音声認識を用いた字幕呈示システムにおいて,精度100%の字幕の生成は技術的に困難であり,呈示される字幕には誤認識が含まれ,不完全な文章になる.ここで重要なのは情報取得者の内容理解度を100%にすることであり,そのためには字幕のみで情報呈示を行うことに拘る必要はない.呈示する複数の情報から総合的な理解度を100%にすることが重要となる.しかしながら,呈示する情報の組み合わせ方など呈示方法に依っては内容理解を阻害する可能性がある点に注意する必要がある.本課題では,音声認識結果である誤認識を含む不完全文と,話者の発話時のノンバーバル情報を呈示させる際に,ヒトが阻害なく情報補完や情報統合が行える最適な情報呈示方法の研究を実施した. 昨年度までに,不完全文に対する話者の発話時の顔全体映像に意図的な時差を設けた呈示試料を用いて,完全文(正解文)に対する回答文の正答率を文理解向上の指標とした測定を行った.その結果,何れの被験者群においても正答率が「字幕先行>同時呈示>顔先行」となる傾向があった.今年度はこの傾向を定量的に測定するための実験を行った.今回の実験では,顔情報と字幕情報の呈示時差として,字幕情報先行呈示5秒から顔情報先行呈示5秒までの11段階を実験条件とした.その結果,顔情報より字幕情報を先行呈示する方法に対し正答率が向上する傾向にあり,顔情報より字幕情報を1秒先行して呈示する方法が何れの被験者群に関しても最も高い正答率を示すことが判った.
|