2003 Fiscal Year Annual Research Report
頑健な音声認識技術を用いたビデオ教材作成支援システムの開発
Project/Area Number |
14580246
|
Research Institution | Ishikawa National College of Technology |
Principal Investigator |
金寺 登 石川工業高等専門学校, 電子情報工学科, 助教授 (50194931)
|
Keywords | ビデオ教材 / ビデオセグメンテーション / ビデオ分割 / 独立成分分析 / 音声認識 |
Research Abstract |
頑強な音声認識技術をビデオ教材の作成や利用に応用した場合、どの程度の改善効果があるかを実際にシステムを開発し、調査することを目的とし、本年度は以下の調査結果を得た。 1.講義音声に対する各種音声認識技術の比較 新聞記事を読み上げた音声を認識した場合には95.2%の単語正解率が得られるが、同じシステムを用いて講義音声を認識した場合には49.8%の単語正解率であった。これはくだけた言い回しや言い直しが多くなるためと思われる。そこで学会講演データベースから学習された言語モデルを使用することにより単語正解率が6.4%改善されることを確認した。また講義内容を読み上げ直すことで、講義音声を音響モデルに近づけたところ、単語正解率がさらに14.5%改善された。これより、音響モデルの改善余地は14.5%程度であることがわかった。 2.ビデオシーン自動分割方法の検討・評価 ビデオシーン分割に動的計画法を用いる方法を提案し、隣接シーン間の余弦距離が最小になるように最適化した。音声認識より得られたテキストを用いてシーン分割を行った結果、従来の経験的なルールによりシーン分割を行う方法よりも良好な結果が得られることがわかった。また、講義ビデオの場合に映像情報のみで分割しても、正確なシーン境界がほとんど得られず、音声情報を用いる方法の優位性が確認できた。 3.ビデオ教材作成支援システムの開発・評価 本研究の方式により話題ごとに自動分割されたビデオシーンを選択することでビデオ教材が作成できるプロトタイプシステムを開発した。このシステムを用いて、被験者に実際にビデオ教材を作成してもらう予備試験を行ったところ,ビデオシーン境界が正解であれば、作成時問および使いやすさともに改善されることを確認した。
|
Research Products
(6 results)
-
[Publications] 金寺 登: "変調スペクトルの貢献度に基づく連続音声認識"電子情報通信学会技術研究報告. 102・248. 41-46 (2002)
-
[Publications] N.Kanedera: "Continuous Speech Recognition Based on the Contribution of Modulation Spectrum"SPEECH DYNAMICS BY EAR, EYE, MOUTH AND MACHINE An Interdisciplinary Workshop(電子情報通信学会技術研究報告). 103・155. 67-72 (2003)
-
[Publications] 隅田 飛鳥: "独立成分分析を用いた音声による講義ビデオシーン分割"電子情報通信学会技術研究報告. 103・220. 7-12 (2003)
-
[Publications] 金寺 登: "授業ビデオの自動シーン分割-ビデオ教材の充実を目指して-"高等専門学校 情報処理教育研究委員会 情報処理教育研究発表会論文集. 23. 98-101 (2003)
-
[Publications] 金寺 登: "講義音声認識と講義ビデオシーン自動分割への応用"人工知能学会研究会資料SIC-SLUD-A302. 9-14 (2003)
-
[Publications] 金寺 登: "ビデオ教材作成支援のための授業ビデオシーン分割方法の検討"論文集「高専教育」. 27. 727-732 (2004)