2003 Fiscal Year Annual Research Report
Project/Area Number |
15500098
|
Research Institution | Yamagata University |
Principal Investigator |
好田 正紀 山形大学, 工学部, 教授 (00205337)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 正治 山形大学, 工学部, 助手 (10250953)
小坂 哲夫 山形大学, 工学部, 助教授 (50359569)
|
Keywords | 音声認識 / 話し言葉音声認識 / 音響モデル / 言語モデル / 発音変形依存モデル / 教師なし適応 / MLLR / 品詞N-gram |
Research Abstract |
話し言葉音声の代表例として講演音声コーパスCSJを取り上げ、大語彙連続音声認識システムを構築し、下記の研究成果を得て、研究計画時点の単語誤り率(WER)30%程度から、平成15年度にWER20%程度を目指すとした初期の目標を達成した。 (1)発音変形依存の言語モデルの提案 ChaSenの解析結果とCSJ書き起こしテキストの基本形及び発音形を利用し、音声に忠実な読みを持つ言語テキストを作成し、N-gram言語モデルと単語辞書を構築する。こうして作成された言語モデル(発音変形依存モデル)は、単語辞書の発音情報を制御し、単語レベルの調音結合等の音響的な変化を言語的制約としてモデル化できる。CSJ評価データ4講演の平均で、ChaSenの解析結果に基づく従来のモデルでWER37.1%に対して、提案の発音変形依存モデルでWER23.1%を得た。 (2)音響・言語モデルの適応化 音響モデルと言語モデルの教師なし適応を行ない、それらを組み合わせて繰り返すことによって、性能改善を図った。音響モデルの適応ではMLLR適応を用い、言語モデルの適応では品詞単位のクラスN-gramを単語N-gramと線形結合した。教師なし適応の繰り返しによって、WERが適応前の23.1%から適応後18.9%に減少した。 (3)音響・言語モデルの精密化 講演スタイルを考慮した言語モデル、及び、発声速度を考慮した音声分析に基づく音響モデルの検討を行なった。その結果、音響・言語モデルの適応前で21.8%、適応後で17.6%のWERを得て、上記(1)(2)の性能がさらに改善された。
|
Research Products
(12 results)
-
[Publications] 堤 怜介: "講演音声認識における音響・言語モデルの話者適応の検討"電子情報通信学会 技術研究報告. 103, 94(SP2003-27). 7-12 (2003)
-
[Publications] 小坂 哲夫: "MAP推定を用いた離散混合出力分布型HMMの雑音重畳音声での評価"電子情報通信学会 技術研究報告. 103, 93(SP2003-21). 7-12 (2003)
-
[Publications] 小坂 哲夫: "MAP推定による離散混合出力分布型HMMを用いた非定常雑音下における音声認識の検討"日本音響学会講演論文集(秋季). 1-6-14. 27-28 (2003)
-
[Publications] 福士 なな子: "ETSI標準フロントエンドを用いたマルチコンディション学習による雑音重畳音声認識の検討"日本音響学会講演論文集(秋季). 1-6-8. 15-16 (2003)
-
[Publications] 金野 弘明: "かな・漢字文字列を単位とした言語モデルの検討"東北大学電気通信研究所 音響工学研究会. 326-4. 1-6 (2003)
-
[Publications] 小坂 哲夫: "離散混合出力分布型HMMを用いた非定常雑音下の音声認識"電子情報通信学会 技術研究報告. 103, 519(SP2003-132). 115-120 (2003)
-
[Publications] 堤 怜介: "発音変形依存と教師なし適応による講演音声認識の性能改善"話し言葉の科学と工学ワークショップ. 3. 93-98 (2004)
-
[Publications] 福士 なな子: "ETSI標準フロントエンドを用いた雑音重畳音声認識の検討"情報処理学会 東北支部研究会. 03-5-B2-1. 1-8 (2004)
-
[Publications] 松本 和樹: "分散音声認識のクライアントにおけるマイク特性変動の除去"情報処理学会 東北支部研究会. 03-5-B2-2. 1-8 (2004)
-
[Publications] 堤 怜介: "発音変形依存と教師なし適応による講演音声認識の性能改善"日本音響学会講演論文集(春季). 2-11-3. 105-106 (2004)
-
[Publications] 金野 弘明: "相互情報量と出現頻度を併用した文字列N-gram"日本音響学会講演論文集(春季). 2-8-4. 67-68 (2004)
-
[Publications] 小坂 哲夫: "Noisy speech recognition with discrete-mixture HMMs based on MAP estimation"18th International Congress on Acoustics. Tu. P2.8. (2004)