研究課題/領域番号 |
18500126
|
研究種目 |
基盤研究(C)
|
研究機関 | 山形大学 |
研究代表者 |
好田 正紀 山形大学, 工学部, 教授 (00205337)
|
研究分担者 |
小坂 哲夫 山形大学, 工学部, 助教授 (50359569)
加藤 正治 山形大学, 工学部, 助手 (10250953)
|
キーワード | 日本語話し言葉コーパス / 音声認識 / 音響モデル / 言語モデル / 教師なし適応 / 混合連続分布HMM / 離散混合分布HMM |
研究概要 |
日本語話し言葉コーパス(CSJ)を用いて音響・言語モデルの高性能化と教師なし適応の改善に関する検討を行った。 1 音響・言語モデルの高性能化 (1)音響モデルに関しては、出力確率の分布形状として対角共分散モデルを拡張したブロック型全共分散モデルの検討を種々の条件について行い、状態数3000、混合数16の音響モデルの単語誤り率(WER)は対角共分散モデル20.79%に対して全共分散モデル19.17%と1.62ポイントの性能向上を確認した。さらに、モデル学習法として最尤推定法を拡張した識別学習、音素環境依存モデルとして前後1音素依存のtriphoneモデルを拡張した前後2音素依存のquinphoneモデル、離散混合分布HMMによるロバスト認識、等の検討を行った。 (2)言語モデルに関しては、trigramを拡張した4-gram、単語N-gramと品詞N-gramの混合モデル、学習テキストとして会議議事録や学会講演予稿葉の利用、等の検討を行った。 2 教師なし適応の改善 (1)教師なし適応の繰り返しに関しては、音響モデルと言語モデルの逐次/併行適応やデコード/リスコア適応の種々の組合せについて検討し、逐次・デコード適応、併行・デコード適応、併行・デコードリスコア適応、併行・リスコア適応の計算量比が8:4:2.44:1.66に対して、全共分散モデルの場合のWERはそれぞれ14.73%、14.99%、15.03%、15.22%となることを確認した。 (2)教師なし適応に用いる適応データに関しては、品詞情報に基づいて適応データの選択や重み付けを種々の条件について検討し、音素認識率が比較的良い8品詞に重み付けの場合に性能向上効果が大きいことを確認した。
|