研究課題
本研究の目的は,大規模音声データから任意の語彙が発話されている区間を特定する音声中の任意語彙検出(Spoken Term Detection,STD)技術の高度化を図ること,その技術を大規模音声ドキュメント内容検索(Spoken Document Retrieval,SDR)や音声認識に応用しこれらの精度を改善させることである.平成23年度は,STD技術の高度化に重点を置いて研究を行った.その成果を受けて,平成24年度では,さらなるSTD技術の高度化,並びにSTD技術の音声認識への応用に取り組んだ.平成25年度は,STDの高精度化に加えて,この技術を用いた音声ドキュメント処理,未知語検出などへの応用を図った.これまでに開発したSTD技術では,複数の音声認識器を用いた音声認識結果を利用し,高い検索語の検出性能を得ることに成功した.今回,STD技術の実利用を狙うため,高い検出率と湧き出し誤りの両方を実現する方法を考案した.通常,高い検出率と湧き出し誤りの増加には高い相関がある.STD技術を実利用するためには,高い検出率が必要であり,この場合湧き出し誤りの増加は避けて通れない.そこで,検索用インデックスの複雑さ尺度(エントロピー)を用いて湧き出し誤りを抑制する手法を考案した.これにより,高い検出率が得られたときでも,湧き出し誤りを抑制することに成功した(学会講演音声のSTDタスクにおいて,F値を用いた検索性能で0.457が0.568に改善).さらに,開発したSTD技術を用いて音声認識において大変重要な未知語を自動獲得する手法を開発した.またSTDを用いた言語モデルの話題適応化手法を提案し,音声認識率の精度が改善することも確かめた.最後に,電子ノートシステムに音声・動画を検索する機能としてSTD技術を組み込んだ.被験者実験の結果,本STD技術が実利用できる可能性が高いことを示せた.
すべて 2013 その他
すべて 雑誌論文 (4件) (うち査読あり 4件) 学会発表 (12件) 備考 (1件)
Journal of Information Processing
巻: 21 ページ: 176-185
10.2197/ipsjjip.21.176
電子情報通信学会論文誌
巻: J96-D ページ: 2379-2389
Proceedings of the 5th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2013)
巻: 1 ページ: 1-7
巻: 1 ページ: 1-4
http://www.alps-lab.org/