研究課題/領域番号 |
12480085
|
研究機関 | 京都大学 |
研究代表者 |
河原 達也 京都大学, 情報学研究科, 助教授 (00234104)
|
研究分担者 |
堂下 修司 龍谷大学, 理工学部, 教授 (00025925)
池田 克夫 京都大学, 情報学研究科, 教授 (30026009)
黒橋 禎夫 京都大学, 情報学研究科, 講師 (50263108)
|
キーワード | 音声情報処理 / 音声認識 / 話し言葉 / 音響モデル / 言語モデル / HMM / N-gram |
研究概要 |
講演音声を自動的に書き起こすための音声認識用モデルについて研究を進めてきた。まず、実際の学会講演の音声・テキストデータベース(47時間分・186講演)を用いて、ベースラインとなる音響モデル・言語モデルを作成した。音響モデルはtriphone HMMであり、言語モデルは単語trigramである。その上で、それぞれの高精度化を図った。 音響モデルの高精度化には、発話速度の速い音素セグメントに対するモデル化が必要であると考え、音素モデルに飛び越し遷移を許すモデル、発話速度別音素モデル、発話速度別音節モデルを考案し評価した。その結果、若干の認識率の向上を得たが、速い音素区間に対応すると共に、十分な学習データ量を確保することの重要性を確認した。 言語モデルの学習には、書き起こしだけではデータ量が十分でないので、利用可能な種々のテキストコーパスを混合することを考えた。タスクに合致した書き起こしテキストをターゲットとした削除補間法により混合重みを自動的に最適化する方法を考案した。Web講演録との混合において、単純に1:1の比で混合すると性能は逆に低下したが、混合重みを最適化した結果パープレキシティが改善され、認識精度も向上した。 この結果、テストセットの学会講演に対して、63%の単語認識精度を実現した。今後さらなる高精度化のための研究を進めていく予定である。
|