研究概要 |
頑強な音声認識技術をビデオ教材の作成や利用に応用した場合、どの程度の改善効果があるかを実際にシステムを開発し、調査することを目的とし、本年度は以下の調査結果を得た。 1.講義音声に対する各種音声認識技術の比較 新聞記事を読み上げた音声を認識した場合には95.2%の単語正解率が得られるが、同じシステムを用いて講義音声を認識した場合には49.8%の単語正解率であった。これはくだけた言い回しや言い直しが多くなるためと思われる。そこで学会講演データベースから学習された言語モデルを使用することにより単語正解率が6.4%改善されることを確認した。また講義内容を読み上げ直すことで、講義音声を音響モデルに近づけたところ、単語正解率がさらに14.5%改善された。これより、音響モデルの改善余地は14.5%程度であることがわかった。 2.ビデオシーン自動分割方法の検討・評価 ビデオシーン分割に動的計画法を用いる方法を提案し、隣接シーン間の余弦距離が最小になるように最適化した。音声認識より得られたテキストを用いてシーン分割を行った結果、従来の経験的なルールによりシーン分割を行う方法よりも良好な結果が得られることがわかった。また、講義ビデオの場合に映像情報のみで分割しても、正確なシーン境界がほとんど得られず、音声情報を用いる方法の優位性が確認できた。 3.ビデオ教材作成支援システムの開発・評価 本研究の方式により話題ごとに自動分割されたビデオシーンを選択することでビデオ教材が作成できるプロトタイプシステムを開発した。このシステムを用いて、被験者に実際にビデオ教材を作成してもらう予備試験を行ったところ,ビデオシーン境界が正解であれば、作成時問および使いやすさともに改善されることを確認した。
|