状態・出力に相互依存性を有する確率モデルに基づく高精度な音声・ジェスチャ認識

研究課題

研究課題/領域番号	12680399
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	早稲田大学
研究代表者	小林哲則早稲田大学, 理工学部, 教授 (30162001)
研究期間 (年度)	2000 – 2002
研究課題ステータス	完了 (2002年度)
配分額 *注記	3,600千円 (直接経費: 3,600千円) 2002年度: 800千円 (直接経費: 800千円) 2001年度: 900千円 (直接経費: 900千円) 2000年度: 1,900千円 (直接経費: 1,900千円)
キーワード	確率モデル / 音響モデル / PHMM / SPHMM / 音声認識 / ジェスチャ認識 / 時系列パターン認識
研究概要	本研究では、時系列パターン認識に必要となる確率モデルとして通常用いられている隠れマルコフモデル(HMM)に代わる、表現能力の高い確率モデルを提案した。さらにこれらを用いて高精度な連続音声認識システム、ジェスチャ認識システムを実現することを試みた。具体的な研究成果は以下の通りである。 (1)部分隠れマルコフモデル(PHMM)の導入複雑な特徴量の時間変化を確率モデル内部で扱うことを目指して、部分隠れマルコフモデル(PHMM)を提案した。PHMMはHMMに比べて過渡部の表現能力に優れており、出力確率のみならず、状態遷移確率も過去の出力に依存して決まる点が他の先行研究と異なる。シミュレーション実験から、PHMMは過渡部の表現能力、および正解カテゴリに対する尤度の安定性という点で、HMMよりも良好な性能を与えることが確認できた。また、ジェスチャ認識、孤立単語認識において、PHMMは条件によらずHMMを上回る性能を示した。しかし、連続音声認識において差分あり特徴を用いた場合は、HMMの性能を下回ることがわかった。 (2)PHMMにおける状態・出力相互依存関係の拡張従来、出力確率と状態遷移確率を決定するにあたり共通のものを用いていた隠れ状態と観測可能な状態の組を、隠れ状態に関しては共通のものを用い、観測可能な状態に関しては、出力を決定するものと状態遷移を決定するものとで異なるものを用いるように、PHMMおける状態と出力の依存関係の拡張を行った。これにより、PHMMは従来の枠組みよりも離れたフレーム間における出力の依存関係を扱うことが可能となる。連続音声認識実験により性能を評価したところ、従来のPHMMおよびHMMの性能を大幅に改善するとともに、従来のPHMMで差分あり特徴を用いた場合に見られた、HMMの性能を下回るという問題を解決している。 (3)PHMMにおける確率の平滑化 PHMMに基づく新たな確率モデルの枠組みとして、平滑化部分隠れマルコフモデル(SPHMM)を提案した。SPHMMは、PHMMにおける高次の確率をHMMで用いられる低次の確率で補間・平滑化するという枠組みであり、PHMMのもつ精密性とHMMの持つ信頼性を兼ね備えることを目指したものである。また、PHMMとHMMがともに高いスコアを与える単語仮説のみを正解とする枠組みであるので、誤認識を減少させるために有効であると考えられる。連続音声認識実験の結果、SPHMMは平滑化の重みを適切に設定したとき、HMM, PHMMよりも高い性能を与え、その有効性が確認された。PHMMの高次の確率をHMMの低次の確率で平滑化するというSPHMMの構造上、特に高次の特徴量を用いた場合に有効であることがわかった。

報告書

(4件)

研究成果
(20件)

すべてその他

すべて文献書誌 (20件)

[文献書誌] 益満健, 小林哲則: "部分隠れマルコフモデルとそのジェスチャ認識への応用"情報処理学会論文誌. Vol.41. 3060-3069 (2000)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] 古山純子, 小林哲則: "部分隠れマルコフモデルによる単語音声認識"電子情報通信学会論文誌(D-II). No.11. 2379-2387 (2000)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] T.Ogawa, T.Kobayashi: "Generalization of State-Observation-Dependency in Partly-Hidden Markov Models"Proc.ICSLP2002. VOLUME4. 2673-2676 (2002)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] T.Ogawa, T.Kobayashi: "Hybrid Modeling of PHMM and HMM for Speech Recognition"Proc.ICASSP2003. (未定). (2003)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルによる連続音声認識"電子情報通信学会技術研究報告. SP2002-40. 25-30 (2002)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルの拡張と連続音声認識による評価"音響学会秋季研究発表会講演論文集. 1-9-26. 51-52 (2002)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] Ken Masumitsu, Tetsunori Kobayashi: "Partly-Hidden Markov Model and Its Application to Gesture Recognition"IPSJ JOURNAL. Vol. 41, No. 11. 3060-3069 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] Junko Furuyama, Tetsunori Kobayashi: "Spoken Word Recognition Using Partly-Hidden Markov Models"IEICE Trans. (D-II). Vol. J83-D-II, No. 11. 2379-2387 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Generalization of State Observation Dependency in Partly-Hidden Markov Models"IEEE Proc. ICSLP2002. VOLUME 4. 2673-2676 (2002)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Hybrid Modeling of PHMM and HMM for Speech Recognition"IEEE Proc. ICASSP2003. (2003)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Continuous Speech Recognition Using Partly-Hidden Markov Models"IEICE Technical Report. SP2002-40. 25-30 (2002)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Extension of Partly-Hidden Markov Models and evaluation using the continuous speech recognition"ASJ Proc. Autumn Meeting of ASJ. 1-9-20. 51-52 (2002)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2002 研究成果報告書概要
[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Generalization of State-Observation-Dependency in Partly Hidden Markov Models"ICSLP2002. 2673-2676 (2002)
- 関連する報告書
  2002 実績報告書
[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Hybrid Modeling of PHMM and HMM for Speech Recognition"ICASSP2003. (CD-ROM). (2003)
- 関連する報告書
  2002 実績報告書
[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルによる連続音声認識"電子情報通信学会技術研究報告. SP2002-40. 25-30 (2002)
- 関連する報告書
  2002 実績報告書
[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルの連続音声認識による評価"日本音響学会秋期研究発表会講演論文集. 51-52 (2002)
- 関連する報告書
  2002 実績報告書
[文献書誌] 牛久祐輔, 小川哲司, 小林哲則: "複数の話者依存モデルを用いた話者空間表現に基づく話者適応"日本音響学会秋季研究発表会講演論文集. 3-1-9. 129-130 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] 古山純子,小林哲則: "部分隠れマルコフモデルによる単語音声認識"電子情報通信学会論文誌DII. Vol.J83-D-II,No.11. 2379-2387 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 益満健,小林哲則: "部分隠れマルコフモデルとそのジェスチャ認識への応用"情報処理学会論文誌. Vol.41,No.11. 3060-3069 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 小川哲司,小林哲則: "音素単位の部分隠れマルコフモデルにおける状態・出力依存関係の一般化"日本音響学会秋季研究発表会講演論文集. 1-5-10. 19-20 (2000)
- 関連する報告書
  2000 実績報告書

状態・出力に相互依存性を有する確率モデルに基づく高精度な音声・ジェスチャ認識

研究代表者

小林 哲則 早稲田大学, 理工学部, 教授 (30162001)

3,600千円 (直接経費: 3,600千円)

報告書

研究成果

[文献書誌] 益満健, 小林哲則: "部分隠れマルコフモデルとそのジェスチャ認識への応用"情報処理学会論文誌. Vol.41. 3060-3069 (2000)

説明

関連する報告書

[文献書誌] 古山純子, 小林哲則: "部分隠れマルコフモデルによる単語音声認識"電子情報通信学会論文誌(D-II). No.11. 2379-2387 (2000)

説明

関連する報告書

[文献書誌] T.Ogawa, T.Kobayashi: "Generalization of State-Observation-Dependency in Partly-Hidden Markov Models"Proc.ICSLP2002. VOLUME4. 2673-2676 (2002)

説明

関連する報告書

[文献書誌] T.Ogawa, T.Kobayashi: "Hybrid Modeling of PHMM and HMM for Speech Recognition"Proc.ICASSP2003. (未定). (2003)

説明

関連する報告書

[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルによる連続音声認識"電子情報通信学会 技術研究報告. SP2002-40. 25-30 (2002)

説明

関連する報告書

[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルの拡張と連続音声認識による評価"音響学会秋季研究発表会講演論文集. 1-9-26. 51-52 (2002)

説明

関連する報告書

[文献書誌] Ken Masumitsu, Tetsunori Kobayashi: "Partly-Hidden Markov Model and Its Application to Gesture Recognition"IPSJ JOURNAL. Vol. 41, No. 11. 3060-3069 (2000)

説明

関連する報告書

[文献書誌] Junko Furuyama, Tetsunori Kobayashi: "Spoken Word Recognition Using Partly-Hidden Markov Models"IEICE Trans. (D-II). Vol. J83-D-II, No. 11. 2379-2387 (2000)

説明

関連する報告書

[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Generalization of State Observation Dependency in Partly-Hidden Markov Models"IEEE Proc. ICSLP2002. VOLUME 4. 2673-2676 (2002)

説明

関連する報告書

[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Hybrid Modeling of PHMM and HMM for Speech Recognition"IEEE Proc. ICASSP2003. (2003)

説明

関連する報告書

[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Continuous Speech Recognition Using Partly-Hidden Markov Models"IEICE Technical Report. SP2002-40. 25-30 (2002)

説明

関連する報告書

[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Extension of Partly-Hidden Markov Models and evaluation using the continuous speech recognition"ASJ Proc. Autumn Meeting of ASJ. 1-9-20. 51-52 (2002)

説明

関連する報告書

[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Generalization of State-Observation-Dependency in Partly Hidden Markov Models"ICSLP2002. 2673-2676 (2002)

関連する報告書

[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Hybrid Modeling of PHMM and HMM for Speech Recognition"ICASSP2003. (CD-ROM). (2003)

関連する報告書

[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルによる連続音声認識"電子情報通信学会 技術研究報告. SP2002-40. 25-30 (2002)

関連する報告書

[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルの連続音声認識による評価"日本音響学会秋期研究発表会講演論文集. 51-52 (2002)

関連する報告書

[文献書誌] 牛久祐輔, 小川哲司, 小林哲則: "複数の話者依存モデルを用いた話者空間表現に基づく話者適応"日本音響学会秋季研究発表会講演論文集. 3-1-9. 129-130 (2001)

関連する報告書

[文献書誌] 古山純子,小林哲則: "部分隠れマルコフモデルによる単語音声認識"電子情報通信学会論文誌DII. Vol.J83-D-II,No.11. 2379-2387 (2000)

関連する報告書

[文献書誌] 益満健,小林哲則: "部分隠れマルコフモデルとそのジェスチャ認識への応用"情報処理学会論文誌. Vol.41,No.11. 3060-3069 (2000)

関連する報告書

[文献書誌] 小川哲司,小林哲則: "音素単位の部分隠れマルコフモデルにおける状態・出力依存関係の一般化"日本音響学会秋季研究発表会講演論文集. 1-5-10. 19-20 (2000)

関連する報告書

小林哲則早稲田大学, 理工学部, 教授 (30162001)

[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルによる連続音声認識"電子情報通信学会技術研究報告. SP2002-40. 25-30 (2002)

[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルによる連続音声認識"電子情報通信学会技術研究報告. SP2002-40. 25-30 (2002)