研究課題/領域番号 |
15500098
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知覚情報処理・知能ロボティクス
|
研究機関 | 山形大学 |
研究代表者 |
好田 正紀 山形大学, 工学部, 教授 (00205337)
|
研究分担者 |
小坂 哲夫 山形大学, 工学部, 助教授 (50359569)
加藤 正治 山形大学, 工学部, 助手 (10250953)
|
研究期間 (年度) |
2003 – 2005
|
キーワード | 日本語話し言葉コーパス / 話し言葉音声認識 / ロバスト音声認識 / 音響モデル / 言語モデル / 教師なし適応 / 混合連続分布HMM / 離散混合分布HMM |
研究概要 |
話し言葉音声認識の高性能化を目指して以下の研究成果を得た。 1 発音変形依存モデルと教師なし適応による講演音声認識 話し言葉の音声認識で問題となる各種変動要因のうち、不明瞭な発音等を中心とした発音変形の問題について検討する。一般に発音変形への対処として、一つの表記に対し想定される読みを複数登録する方法がとられる。しかし単純に読みを増加させるとマッチングの対象が増加し、逆に認識時に悪影響を及ぼす。そこで発音変形の言語的な偏りを利用するため、音声に忠実な読みを持つ形態素解析データに基づく言語モデルを提案する。以上を実現するため、「日本語話し言葉コーパス」(CSJ)の書き起こしテキストを利用して、約686万語からなる発音変形のエントリを含む形態素解析データを作成し、それに基づき言語モデルを学習する。CSJ評価セット1(学会講演、男性10名)の認識実験の結果、発音変形に対処しない場合には単語誤り率(WER)24.70%であったが、提案した言語モデルを用いるとWERが19.96%に減少し、話し言葉の認識においては発音変形への対処が重要であることを確認した。また、音響モデルと言語モデルの繰り返し教師なし適応法を導入することにより、更なる性能向上を目指した結果、WERが15.41%に減少した。 2 離散混合分布型HMMによる講演音声認識 これまで離散混合分布型HMM(Discrete-Mixture HMM : DMHMM)を用い、雑音下音声認識の検討を行ってきた。その結果、一般的な環境雑音や突発性雑音下において、従来の混合連続分布HMMと比較して高い性能が得られることがわかった。しかし、雑音のないクリーンな環境での性能については明らかではない。そこで本研究では、クリーンな環境での音声データを用い、DMHMMの性能評価を行うことを目的とする。評価にあたっては、他機関との比較ができる共通コーパスを用いるのが望ましいこと、および、なるべく困難なタスクでの性能を明らかにしたいため、「日本語話し言葉コーパス」(CSJ)を用いることとした。音響モデルとして3000状態16混合のDMHMMを、言語モデルとしてCSJの2668講演、686万語から学習した発音変形に依存したモデルを使用した。CSJ評価セット1(学会講演、男性10名)の認識実験の結果WER20.30%を得て、混合連続分布HMMでの結果と比較して遜色ない性能であることを確認した。
|