2002 Fiscal Year Annual Research Report
頑健な音声認識技術を用いたビデオ教材作成支援システムの開発
Project/Area Number |
14580246
|
Research Institution | Ishikawa National College of Technology |
Principal Investigator |
金寺 登 石川工業高等専門学校, 電子情報工学科, 助教授 (50194931)
|
Keywords | ビデオ教材 / ビデオセグメンテーション / ビデオ分割 / 独立成分分析 / 音声認識 / 音声認識特徴量 |
Research Abstract |
頑強な音声認識技術を、ビデオ教材の作成や利用に応用した場合、どの程度の改善効果があるかを実際にシステムを開発し、調査することを目的とし、初年度は以下の調査結果を得た。 1.音声認識における音声モデルの改善:本研究では、実際の講義音声を対象としているため、雑音対策が重要となる。きれいな音声に様々なSNR(信号対雑音比)で雑音を混入し、予備的な評価試験を行った結果、人間の聴覚特性を利用した新しい音声認識特徴量は、一般に使用されている特徴量に比べ、SNR10dBで約5%、SNR0dBで約6%音声認識率が改善されることを確認した。 2.音声認識における言語モデルの改善:ニュース音声や講演音声に比べ、講義音声はさらに柔軟な表現が使用されるため、言語モデルの改善が必須である。本研究では音声認識より得られたキーワード候補を検索キーとしてインターネット検索を行い、得られた関連テキストを元に言語モデルの改善を行った。その結果、音声認識誤りの一部が改善された。 3.音声情報によるビデオシーン分割方法の検討:講義ビデオ中の音声情報より書き起こしテキストを作成した後、音声認識誤りに相当する置換誤りを挿入し、ビデオシーンの分割を試みた。ビデオシーン分割には動的計画法を用いる方法を提案し、隣接シーン間の余弦距離が最小になるように最適化した。実験の結果、シーン分割の指標として提案した独立成分分析による方法は一般的に利用されているTF-IDFと同等以上の結果が高速に得られることがわかった。これは、TF-IDFの計算量がキーワード語彙(約60分の講義では600語程度)に比例するのに対し、独立成分分析の計算量では、指定した独立成分数(100とした場合、1/6に計算量が軽減)に比例するためである。さらに、音声認識における単語正解率が約30%以上あればシーン分割において約70%以上の再現率が得られる見通しを得た。
|
Research Products
(2 results)