研究課題/領域番号 |
18500126
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知覚情報処理・知能ロボティクス
|
研究機関 | 山形大学 |
研究代表者 |
好田 正紀 山形大学, 大学院・理工学研究科, 教授 (00205337)
|
研究分担者 |
小坂 哲夫 山形大学, 大学院・理工学研究科, 准教授 (50359569)
加藤 正治 山形大学, 大学院・理工学研究科, 助手 (10250953)
|
研究期間 (年度) |
2006 – 2007
|
研究課題ステータス |
完了 (2007年度)
|
配分額 *注記 |
1,910千円 (直接経費: 1,700千円、間接経費: 210千円)
2007年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2006年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | 日本語話し言葉コーパス / 音声認識 / 音響モデル / 言語モデル / 教師なし適応 / システム統合 / ロバスト音声認識 / 混合連続分布HMM / 離散混合分布HMM |
研究概要 |
日本語話し言葉コーパス(Corpus of Spontaneous Japanese:CSJ)を用いて大語彙連続音声認識の音響モデル、言語モデル、デコーダ、モデル適応、システム統合などの高性能化に関する検討を進めた。 (1) 音響モデルの高性能化では対角共分散モデルを一般化したブロック型全共分散モデル、最尤推定学習を一般化した識別学習、triphoneモデルを拡張したquinphoneモデル、不特定話者モデルを一般化した話者クラスモデル、雑音/音楽環境下の離散混合分布型HMM構成法、等の検討を行なった。 (2) 言語モデルの高性能化では単語N-gramを一般化した単語/品詞N-gramの混合モデル、N-gramを拡張したPLSA(確率的潜在意味解析)に基づく言語モデル、言語テキスト量増加を目指した話題の異なる議事録テキスト利用や話題の類似したWebテキスト収集、等の検討を行なった。 (3) デコーダの高性能化では混合モデルによる単語グラフのリスコア、等の検討を行なった。 (4) モデル適応の高性能化では教師なし適応の繰り返しにおける逐次/並行適応やデコード/リスコア適応の組合せ、品詞情報に基づく適応データの選択や重み付け、ヒストグラム同等化に基づく特徴ベクトルやコードブックの適応、PLSAに基づく単語/品詞N-gramの適応、等の検討を行なった。 (5) システム統合の高性能化では認識結果/コンフュージョンネットワークの統合を一般化した単語グラフの統合に基づくシステム統合、等の検討を行なった。 認識性能はCSJ公開版評価セット1に対して本研究期間終了時にWER18.66%(適応前)、14.47%(適応後)を達成した。要素技術を蓄積し研究が着実に進展するとともに今後の主要な研究課題が明らかになった。
|