研究概要 |
本研究は, 実際に大学で行われている聴覚障害者集団での講義における情報保障を対象とする. 一部の講義では, 講師が手話で話せないためにパソコン筆記による情報保障が行われている. この講義では, 黒板, パワーポイントなど講師が作成したファイルを投影するスクリーン, 講師と学生が筆談を行うためのホワイトボード, 入力された文字を表示するための大型ディスプレイが使われている. このような状況のもとで, 講師が, 指示動作を伴って指示語を発話したときの指示対象の検出について研究を行った. 例えば「これとこれを合わせると, …」のように, 指示語をそのまま入力した文字だけでは全く理解できないので, 指示語の内容を補って入力する必要がある. このとき, 講師が指し示しているスライドの箇所が遠隔地から読めなければならない. 講師の動作を収録した映像と講師の発話を収録した音声を処理することによって, 指示動作を伴う指示発話を検出した, 映像から講師領域と指示棒の領域を検出し, その指示棒の先端や講師の指先と講師の体の位置関係から指示動作を検出した, 音声から音声認識を利用した手法により指示発話を検出した. 音声認識では, 指示語発話時の音声の分析により)指示後の発話の前に, フィラーを含むポーズがあることが分かったため, それを利用して音声認識の抽出率を向上した. 指示語発話時の音声発話と指示動作の発生時刻について分析を行い, その結果に基づいて音声, 映像の2つを統合する手法を提案し, 指示動作を伴う指示発話を検出した一実際に収録した講義データに対して, 指示語・指示動作抽出処理行い, さらに, 統合処理を行った結果, 再現率約91%, 適合率約71%を得た.
|