研究課題/領域番号 |
12480083
|
研究機関 | 東京工業大学 |
研究代表者 |
古井 貞煕 東京工業大学, 大学院・情報理工学研究科, 教授 (90293076)
|
研究分担者 |
岩野 公司 東京工業大学, 大学院・情報理工学研究科, 助手 (90323823)
|
キーワード | 偏在・ウェアラブル計算環境 / 会議CSCW / 並列型計算機 / 話者適応 / 音声認識システム |
研究概要 |
遍在・ウェアラブル計算環境における会議CSCWの実現のため、会議音声を並列型計算機によりオンラインで音声認識するシステムを構築した。会議参加者の話者交代を自動的に検出しながら、オンラインで音響モデルの教師なし適応を行う。入力話者が未知の場合は、新たに話者適応モデルを作成する。各話者に適応して作成された、異なる音響モデルを持った音声認識システムを同時並列に駆動し、尤度を基準に最適な認識結果を選択する。 構築した並列型音声認識システムは、音声入力受付、認識結果集計、結果出力、話者適応を行うコアサーバーと、音声認識を行う複数の音声認識モジュールからなる。複数の話者適応モデルでの認識を、複数の認識モジュールで並列処理することにより、認識時間を短縮している。 NHK番組「日曜討論」の約1時間の政治家の討論音声を用いて、評価実験を行った。言語モデルは、WWW上で公開されている講演書き起こしテキストから作成した。語彙数は二万語、テストセットパープレキシティは292.2で、極めて難しいタスクである。話者適応モデルの種となる不特定話者モデルは、話し言葉コーパスから作成した。実験の結果、単一の音声認識システムを用いるよりも高速で、しかも比較的高い認識精度を持つシステムが実現できることが確認された[1][2]。 [1] 田熊、岩野、古井:"並列処理型会議音声認識システムの検討"、日本音響学会秋季研発表会、3-1-11(2001) [2] 田熊、岩野、古井:"逐次話者適応を用いた並列処理型会議音声認識システムの検討"、日本音響学会春季研究発表会、2-5-6(2002)
|