2013 Fiscal Year Annual Research Report
音声中の任意語彙検出の高度化と音声認識・音声ドキュメント内容検索への応用
Project/Area Number |
23700111
|
Research Institution | University of Yamanashi |
Principal Investigator |
西崎 博光 山梨大学, 医学工学総合研究部, 助教 (40362082)
|
Keywords | 音声中の検索語検出 / 音声ドキュメント検索 / 音声ドキュメント処理 / 音声認識 / 音声インタフェース |
Research Abstract |
本研究の目的は,大規模音声データから任意の語彙が発話されている区間を特定する音声中の任意語彙検出(Spoken Term Detection,STD)技術の高度化を図ること,その技術を大規模音声ドキュメント内容検索(Spoken Document Retrieval,SDR)や音声認識に応用しこれらの精度を改善させることである. 平成23年度は,STD技術の高度化に重点を置いて研究を行った.その成果を受けて,平成24年度では,さらなるSTD技術の高度化,並びにSTD技術の音声認識への応用に取り組んだ.平成25年度は,STDの高精度化に加えて,この技術を用いた音声ドキュメント処理,未知語検出などへの応用を図った. これまでに開発したSTD技術では,複数の音声認識器を用いた音声認識結果を利用し,高い検索語の検出性能を得ることに成功した.今回,STD技術の実利用を狙うため,高い検出率と湧き出し誤りの両方を実現する方法を考案した.通常,高い検出率と湧き出し誤りの増加には高い相関がある.STD技術を実利用するためには,高い検出率が必要であり,この場合湧き出し誤りの増加は避けて通れない.そこで,検索用インデックスの複雑さ尺度(エントロピー)を用いて湧き出し誤りを抑制する手法を考案した.これにより,高い検出率が得られたときでも,湧き出し誤りを抑制することに成功した(学会講演音声のSTDタスクにおいて,F値を用いた検索性能で0.457が0.568に改善). さらに,開発したSTD技術を用いて音声認識において大変重要な未知語を自動獲得する手法を開発した.またSTDを用いた言語モデルの話題適応化手法を提案し,音声認識率の精度が改善することも確かめた.最後に,電子ノートシステムに音声・動画を検索する機能としてSTD技術を組み込んだ.被験者実験の結果,本STD技術が実利用できる可能性が高いことを示せた.
|
Research Products
(17 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] Overview of the NTCIR-10 SpokenDoc-2 Task
Author(s)
Tomoyosi Akiba, Hiromitsu Nishizaki, Kiyoaki Aikawa, Xinhui Hu, Yoshiaki Itoh, Tatsuya Kawahara, Seiichi Nakagawa, Hiroaki Nanjo, Yoichi Yamashita
Organizer
The 10th NTCIR Conference
Place of Presentation
東京都千代田区(学術総合センター)
-
-
-