研究概要 |
大学の講義において,聴覚障害者のための情報保障の1つとして遠隔パソコン要約筆記が行われている.これは,講師音声と講義映像を遠隔地にいる要約筆記者に送り,その情報を基に作成された要約筆記文を講義室内の受講生(聴覚障害者)に提示するものである.これにより遠隔の入力者は,必要な視覚情報をもれなく参照することができ,正確な要約文を入力することが可能となる.特に入力が難しい数式を音声情報処理,映像情報処理の技術を統合することによって抽出する方法を考案し,実際のシステムに実現した. 本研究では,講義映像を分析し,数式発話時の約80%がスライド中の数式を支持しているという新しい知見を得た.そこで,数式を数式発話とスライド中の数式と組み合わせて精度よく抽出する手法を開発した.まず,講師の音声から数式の発話を音声認識により抽出する.音声認識エンジンJuliusを用い,数式発話抽出を行う.また,映像から取得した指示棒先端の軌跡を取得し,その指示先端の軌跡を追跡し,指示動作を行っていると思われる時刻を抽出する.そして,数式発話抽出結果と指示動作抽出結果を統合する.統合方法は,指示動作開始時刻の2秒前から,指示動作終了時刻までに数式発話開始時刻がある,という知見をもとに統合を行う.統合を行った後,指示動作に応じて指示対象とそのときの軌跡を抽出することで,発話数式に対応する数式画像を抽出する. 実際の講義により収録された音声映像を用いて実験を行った.まず,音声認識における数式要素の抽出率を調査した.その結果,約71%の再現率,約90%の適合率を得た.また,実際に収録したデータに対して,音声認識によって抽出した数式要素を用いて数式画像抽出処理を行った.その結果,約70の再現率,約91%の適合率を得た.この結果を分析したところ,音声認識の数式要素の誤認識によって,数式画像の抽出率を下げている,と考えられる.
|