研究概要 |
平成13年度は、12年度の成果を発展させ,ディジタル化されたビデオ教材から,目次を作成するとともに、要約を作成することを目標として研究を行った.講義音声と同時に,テレビで放映されているニュース映像に対しても,構造化の研究を行った. 1.話者適応による講義音声の高精度な音声ディクテーション 1.講義音声は自由発話に近く,認識精度を向上させるには,発話様式と発話者に音響モデルを適応させる必要がある、本年度は,高精度な音声認識を目指して,音響モデルの教師無し適応を行った.教師無し適応では、予備的に音声認識された結果得られる音素を教師信号として,MLLR-MAPを使って適応させる.このため,次の2点の処理が重要である. a.音素認識率の向上:音素誤り最小化デコーディングを新たに提案し,音声認識においてその有効性を示すとともに,教師無し適応においても有効であることを示した. b.音素信頼度の設定:認識が確かではない音素を用いると適応結果が劣化する.そのため,認識結果が確かな音素のみを取り出すために,音素信頼度を設定し,音響モデルを適応させた. この2つの処理を導入することにより,適応後の単語認識率が10%程度向上した. 2.話題分割による講義音声の目次作成と要約 講義音声をいくつかの話題に自動分割する方法を研究した.その話題が相互に参照している状態を把握して目次を作成した.講義音声に対するテキストが既に入手できている場合には,90%の精度で音声とテキストとの対応付けを行うことができた.また,分割された話題ごとに,重要な単語が多く出現している箇所を重要箇所として取り出すことで,要約する方法を提案した.しかし,テキストが入手できない場合には、講義音声のトピックセグメンテーションは,きわめて難しい状態にあることも分かった.
|