• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

時間構造共有化による状態遷移非同期型隠れマルコフモデルによる音声認識

研究課題

研究課題/領域番号 12680375
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 知能情報学
研究機関北陸先端科学技術大学院大学

研究代表者

下平 博  北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30206239)

研究分担者 中井 満  北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149)
嵯峨山 茂樹  東京大学, 大学院・情報理工学系研究科, 教授 (00303321)
研究期間 (年度) 2000 – 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
3,400千円 (直接経費: 3,400千円)
2002年度: 800千円 (直接経費: 800千円)
2001年度: 900千円 (直接経費: 900千円)
2000年度: 1,700千円 (直接経費: 1,700千円)
キーワード隠れマルコフモデル / HMM / 非同期遷移 / AT-HMM / 非同期遷移型HMM / 時間方向共有 / 特定話者音声認識 / 複数軌道モデル / 特徴量別音素環境依存モデル / 特徴量依存音素環境クラスタリング
研究概要

従来の隠れマルコフモデルHMMによる音声信号のモデル化は、音響特徴量(20次元程度のベクトル)の各成分の時間変化のタイミング、すなわち状態遷移が互いに同期していることを暗黙のうちに仮定していた。同期という拘束条件を取り払い、モデルの自由度を上げることによって、音響特徴量の実際の時間変化をより高精度に、かつ効果的に表現できる非同期遷移HMM(AT-HMM)について検討を行った。
その結果、一般のAT-HMMを用いたデコーディング(認識処理)には2段DPあるいはLevel-Building法が基本的には必要であり、通常の同期型HMMに比べて計算量が膨大であることを明らかにした。この問題に対して、非同期構造にある種の順序制約を付加した順序制約付きAT-HMMを考案し、このクラスのAT-HMMは従来の同期型HMMと同様の高速デコーディング法(例えばOne-Pass Viterbi探索法)が利用できることを示した。この、順序制約付きAT-HMMは、「時間方向共有」と呼ばれる新しい共有化法の概念を導入することにより、実現が可能であり、クラスタリングを用いた順序制約付きAT-HMMの学習アルゴリズムを新たに提案した。提案手法は特定話者の連続音素認識において従来方を上回る認識性能が得られた。一方、不特定話者認識における効果は少ないことが確認され、分析の結果、話者によって非同期構造が異なることが分かった。
また、AT-HMMを利用して、特徴量毎に音素環境依存性が異なることを許した新しいモデル学習法として特徴量依存音素環境クラスタリング法を開発した。特定話者による実験の結果、学習データに関しては従来法より高い認識率が得られ、有効性が確認された。

報告書

(4件)
  • 2002 実績報告書   研究成果報告書概要
  • 2001 実績報告書
  • 2000 実績報告書
  • 研究成果

    (18件)

すべて その他

すべて 文献書誌 (18件)

  • [文献書誌] S.Matsuda: "Asynchronous-Transition HMM"Proc. 2000 International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2. 1001-1004 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] S.Matsuda: "Feature-dependent Allophone Clustering"Proc. International Conference on Spoken Language Processing (IC-SLP2000). 1. 413-416 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] 松田 繁樹: "複数混合分布を持つ順序制約付き非同期遷移型HMM"日本音響学会2000年秋季研究発表会講演論文集. 1-5-11. 21-22 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] 松田 繁樹: "複数の特徴ベクトル軌道を持つ環境依存音素クラスタの生成"日本音響学会2001年秋季研究発表会講演論文集. 1-1-10. 19-20 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] 松田 繁樹: "音素環境クラスタリングを基礎としたマルチパス音響モデルの自動生成"日本音響学会2002年秋季研究発表会講演論文集. 81-82 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] 松田 繁樹: "非同期遷移型HMMによる音声認識"電子情報通信学会論文誌D-II. J86-D-II, 6. 741-754 (2003)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] S.Matsuda, M.Nakai, H.Shimodaira, S.Sagayama: "Asynchronous-Transition HMM"Proc.2000 International Conference on Acoustics, Speech and Signal Processing (ICASSP) (Istanbul, Turkey). Vol.II (Jun). 1001-1004 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] S.Matsuda, M.Nakai, H.Shimodaira, S.Sagayama: "Feature-dependent Allophone Clustering"Proc.International Conference of Spoken Language Processing (CSLP2000). (Oct). 413-416 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] S.Matsuda, M.Nakai, H.Shimodaira, S.Sagayama: "Asynchronous-transition Hidden Markov Models with Multiple Mixtures"The 2000 Autumn Meeting of The Acoustical Society of Japan, (in Japanese). 1-5-11 (Sep). 21-22 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] S.Matsuda, M.Nakai, H.Shimodaira, S.Sagayama: "Generation of phoneme environment clusters with multiple trajectories"The 2001, Autumn Meeting of The Acoustical Society of Japan, (in Japanese). 1-1-10 (Oct). 19-20 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] S.Matsuda, M., Nakai, H.Shimodaira, S.Sagayama: "Automaic generation of multiple-path HMM based on phoneme-environment clustering"The 2002 Autumn Meeting of The Acoustical Society of Japan, (in Japanese). (Sep). (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] S.Matsuda, M.Nakai, H.Shimodaira, S.Sagayama: "Speech Recognition Using Asynchronous Transition HMM"IEICE Trans. D-II, (in Japanese). vol.J86-D-II, no.6 (Jun). 741-754 (2003)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] 松田, 中井, 下平, 嵯峨山: "音素環境クラスタリングを基礎としたマルチパス音響モデルの自動生成"日本音響学会2002年秋季研究発表会講演論文集. 35-36 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 松田, 中井, 下平, 嵯峨山: "非同期遷移型HMMによる音声認識"電子情報通信学会論文誌 D-II. J86-D-II,4(掲載予定). (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 松田 繁樹: "複数の特徴ベクトル軌道を持つ環境依存音素クラスタの生成"日本音響学会2001年秋季研究発表会講演論文集. 19-20 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] S.Matsuda: "Feature-dependent Allophone Clustering"Proc.International Conference on Spoken Language Processing (ICSLP2000). 2. 413-416 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 松田繁樹: "複数混合分布を持つ順序制約付き非同期遷移型HMM"日本音響学会2000年秋季研究発表会講演論文集. 21-22 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] S.Matsuda: "Asynchronous-Transition HMM"International conference on Acoustics, Speech, and Signal Processing (ICASSP-2000). 3. 1001-1004 (2000)

    • 関連する報告書
      2000 実績報告書

URL: 

公開日: 2000-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi