配分額 *注記 |
13,000千円 (直接経費: 13,000千円)
2001年度: 3,200千円 (直接経費: 3,200千円)
2000年度: 3,100千円 (直接経費: 3,100千円)
1999年度: 6,700千円 (直接経費: 6,700千円)
|
研究概要 |
平成11年度〜平成13年度の3年間における本研究の主な成果は以下の7点に要約される. 1.話し言葉に対する高速・高精度な音声認識手法に基づく索引付け:単語や音素の誤りを最小化するデコーディング法を開発し,音響モデルを教師無しで繰り返し適応するという,精度のよい音声認識手法を提案した.また,音声認識の処理を高速にすることで,より多くの仮説を検証できるような方法を提案した. 2.雑音やBGMに頑健な音声認識手法に基づく索引付け:定常的な雑音だけでなく,音楽のような非定常的な雑音に対しても,雑音を除去して音声認識の精度を向上させる研究を行った.手法としては,カルマンフィルターを用いる方法,MLLR(Maximum Likel ihood Linear Regression)を繰り返し用いて雑音適応する方法を提案した. 3.話者認織技術に基づく発話者の索引付け:ニュース音声や対談,討論の音声からアナウンサーの発言だけを抽出して索引付けする手法や,特定の有名人の発話だけを抽出して索引付けする方法を研究した.手法としては,音声中に含まれている音韻性と話者性を分離して,話者性だけを用いて話者認識や話者照合を行う方法を提案した. 4.文字認識技術と映像処理技術を用いた索引付け:ビデオ映像からテロップやフリップを含むフレームの自動検出,文字が含まれている領域の検出,精度の良い2値化手法について提案し,市販のOCRを用いてビデオ映像中のテロップやフリップを認識する手法を開発した. 5.音声認識技術と文字認識技術を用いたトピックセグメンテーション:異なる単語間でも似度を計算できる単語空間法を提案し,ニュースビデオのセグメンテーションを行った.商品ビデオでは,完全自動化を目指して,テロップ認識により商品名を抜き出し,これを辞書として音声認識することで個々の商品クリップに分割する手法を提案した. 6.ビデオ映像の構造化と内容記述:ニュースビデオや講義ビデオに対して,重要語を索引として抽出した後に,ビデオの目次を作成する方法について研究を行った.方法としては,索引を基に最も重要な文を観点として抽出し,これを基にビデオ映像を分割して目次を作成した. 7.ハイパーリンク形成のための類似トピックの検索と要約:索引付けやトピックセグメンテーションした結果に対して,単語の重要度を決定する方法,異なるメディアで表現されたクリップ(音声とテロップなど)どうしの検索方法,話者と発話内容を指定してそれらを同時に検索する方法,トピックセグメンテーション結果に基づく要約法を提案した.
|