研究概要 |
本研究計画中間年度に当たる平成22年度は,前年度に作成したプロトタイプシステムの改良として,授業教材に含まれる音声情報に着目し,授業教材の自由な操作を伴った試聴に際し,目的となるシーンの頭出し等が容易になる仕組みの検討を行うこととした。 前年度に作成したプロトタイプシステムは,授業コンテンツ再生システムに置いて時間軸を比較的自由に変更できるインタフェースを備えるものであった。しかし,その操作を行うために参考とする情報としては,電子黒板上への描画内容のみであるため,必ずしも思い通りの時間に移動できるわけではなかった。そこで本年は,講義コンテンツ等に含まれる音声情報を,発表等を行う主話者と,それに対して質問等を行う聴衆とに分け,さらには無音部・非音声区間ど区別を行い提示を行うことで,コンテンツ上で目的の内容に容易にたどり着けると考えた。 上記の目的のため,まずコンテンツから得られる音情報を,主話者と聴衆との音声部,無音や雑音の非音声部の2つに分けるため,大規模コーパスから学習されたGMMを用いた。また,主話者と聴衆との区別には,授業の収録に使用する民生用ビデオカメラと組み合わせて使用可能な範囲で,主話者に装着したタイピン型マイクからの音声と,全体の音声を収録する環境マイクの(2)チャンネルの音声のエネルギー比を求め区別を行う方法を提案した。ゼミのディスカッションを対象に実証実験を行い,この方法で得られた可視化情報でビデオコンテンツの参照がより容易になることが確認されている。
|