研究課題/領域番号 |
12480085
|
研究機関 | 京都大学 |
研究代表者 |
河原 達也 京都大学, 情報学研究科, 助教授 (00234104)
|
研究分担者 |
堂下 修司 龍谷大学, 理工学部, 教授 (00025925)
池田 克夫 大阪工業大学, 情報科学部, 教授 (30026009)
黒橋 禎夫 東京大学, 情報理工学系研究科, 助教授 (50263108)
奥乃 博 京都大学, 情報学研究科, 教授 (60318201)
佐藤 理史 京都大学, 情報学研究科, 助教授 (30205918)
|
キーワード | 音声情報処理 / 音声認識 / 話し言葉 / 音響モデル / 言語モデル / HMM / N-gram |
研究概要 |
前年度に研究・作成した講演音声の話し言葉を認識するための基本的なモデルとアルゴリズムに基づいて、講演の自動書き起こしシステムとしての設計と実装を進め、予備的な評価実験を行った。 まず、講演音声のような語し言葉を認識するための言語モデルとデコーダ(音声認識プログラム)の改善を行った。言語モデルについては、話し言葉コーパスのデータ量不足を補うために、他のコーパスと混合する方法、特に混合重みの最適化手法を考察した。また話し言葉では、ポーズで区切られる単位が言語的な単位と一致しないため、間投詞とあわせて扱いの検討が必要である。特に発話のセグメンテーションが容易でないため、ショートポーズを検出しながら逐次確定していく方式をデコーダJuliusに実装した。10名の講演音声の認識で評価を行い、平均65.3%の認識精度を得た。 次に、発話速度に関する問題に焦点をあてた認識手法を検討した。実際に認識結果において、特に速い音声で認識率が低いこと、及び発話速度の速い音声と遅い音声では認識誤り傾向に明確な差があることを確認した。そこで、発話速度に応じて最適な音響分析フレーム・音素モデル・デコーディングパラメータを選択的に適用し認識を行う手法を提案した。発話速度の自動推定を組み合わせることにより認識率の向上を得た。さらに、発話速度情報を話者適応に用いる手法についても検討を行った。速い発話と遅い発話のそれぞれを指向した異なる話者適応モデルを構築しそれらを選択的に適用することで、速度情報を用いない適応よりも効率的な適応が行えることを確認した。
|