微分幾何学に基づく音声認識モデル適応法の研究

Research Project

Project/Area Number	12878056
Research Category	Grant-in-Aid for Exploratory Research
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	The University of Tokyo (2001) Japan Advanced Institute of Science and Technology (2000)
Principal Investigator	嵯峨山茂樹東京大学, 大学院・情報理工学系研究科, 教授 (00303321)
Co-Investigator(Kenkyū-buntansha)	田原鉄也東京大学, 大学院・情報理工学系研究科, 助手 (90272393) 中井満北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149) 下平博北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30206239)
Project Period (FY)	2000 – 2001
Project Status	Completed (Fiscal Year 2001)
Budget Amount *help	¥2,200,000 (Direct Cost: ¥2,200,000) Fiscal Year 2001: ¥1,100,000 (Direct Cost: ¥1,100,000) Fiscal Year 2000: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywords	音声認識 / 雑音環境対応 / チャネル適応 / 話者適応 / ヤコビ行列 / ケプストラム / 声道長 / ロンバード効果 / 雑音環境適応
Research Abstract	隠れマルコフモデル(HMM)を用いた現代の音声認識技術では、雑音環境・回線・話者などの使用条件が変わると、しばしば大きな性能低下を起こす。その理由は、環境雑音のような加法性要因、マイクロフォンやアンプの特性などのような乗法性要因、さらに話者の相違のように複雑な要素が絡み合っている要因などにより、音声スペクトルが変形するからである。この現象にHMMを適志させる手法において、微分幾何学的な発想で、定式化、アルゴリズム開発、検証を行った。今年度の主な成果を以下に示す。 1.微分幾何に基づく音声認識モデルの雑音、チャネル、声道長への同時適応音声認識の音響特徴量としてよく用いられるケプストラム(MFCCもその一種)は、スペクトルを変形させる加法性の要因である雑音スペクトルに対しては非線形な関係を持つ。雑音環境下での音声は、雑音(応力に相当)によってそのケプストラムが歪む。その局所的関係はヤコビ行列(応カテンソルに相当)で表される。これを「ヤコビ適応法」の名で発表して以来、高速で性能が高いことから、国外からも関連研究発表がなされている。今年度は、話者による声道長の相違を、未知の声道長比で表し、観測された特徴量との関係を微分的な観点で局所線形モデルの最小二乗法で未知変数を求めるアルゴリズムを提案した。音声認識実験により、性能が向上することを実証した。 2.ピッチ周波数(F_0)を要因とした変形を組み込んだHMM ピッチ周波数と音声スペクトル包絡の間には何らかの相関があることは知られている。これを、HMMの隠れ状態ごとの未知のパラメータを含む線形モデルとして解くと、それを推定するEMアルゴリズムとしてはMLLR(最尤線形回帰)法に類似し牟アルゴリズムが導かれる。この方法による認識性能の向上を音声認識実験で実証した。 3.雑音、チャネル、Lombard効果発声変形への同時要因推定と適応高騒音下での発声はいわゆるLombard効果により発声変形する、これをスペクトルの周波数軸の非線形伸縮として少数の未知パラメータによりモデル化すると、観測されるケプストラムは微分量で表現でき、雑音、チャネルと併せて同時適応アルゴリズムが構成できる。実験により音声認識性能向上を実証した。

Report

(2 results)

2001 Annual Research Report
2000 Annual Research Report

Research Products
(11 results)

All Other

All Publications (11 results)

[Publications] K.fujinaga, M.Nakai, H.Shimadaira, S.Sagayama: "Multiple-Regression Hidden Markov Model"Proceedings of ICASSP 2001. (2001)
- Related Report
  2001 Annual Research Report
[Publications] S.Sagayama, Y.Kato, M.Nakai, H.Shimoyama: "Jacobian Approach to Joint Adaptation to Noise, Channel and Vocal Tract Length"Proceedings of ISCA Workshop on Adaptation Methods (Sophia Antipolice France), Aug 2001. 117-120 (2001)
- Related Report
  2001 Annual Research Report
[Publications] S.Sagayama, K.Shinoda, M.Nakai, H.Shinmodaira: "Analytic Methods for Acoustic Model Adaptation : A Review"Proceedings of ISCA Workshop on Adaptation Methods (Sophia Antipolice France), Aug 2001. (Invited Paper). 67-76 (2001)
- Related Report
  2001 Annual Research Report
[Publications] 坂井伸圭, 中井満, 下平博, 嵯峨山茂樹: "ヤコビ適応法を用いた雑音環境・伝達特性・話者への同時適応"日本音響学会2001年秋季研究発表会講演論文集,3-1-21,, Oct. 133-134 (2001)
- Related Report
  2001 Annual Research Report
[Publications] 坂井伸圭, 中井満, 下平博, 嵯峨山茂樹: "発音変形に対するヤコビ適応法"日本音響学会2001年秋季研究発表会講演論文集,3-2-7. (2002)
- Related Report
  2001 Annual Research Report
[Publications] H.Shimodaira, N.Sakai, M.Nakai, S.Sagayama: "Jacobian Joint Adaptation to Noise, Channel and Vocal Tract Length"Proceedings of ICASSP2002, Orlando, USA, May 2002. (2002)
- Related Report
  2001 Annual Research Report
[Publications] 藤永勝久,中井満,下平博,嵯峨山茂樹: "F0を変形要因とした重回帰HMMを用いた音声認識"日本音響学会2001年春季研究発表会講演論文集(論文番号3-3-5). (2001)
- Related Report
  2000 Annual Research Report
[Publications] 藤永勝久,中井満,下平博,嵯峨山茂樹: "連続量を変形要因とする重回帰モデルを内包するHMM"信学技報SP2000-83. 49-54 (2000)
- Related Report
  2000 Annual Research Report
[Publications] 加藤裕,赤江俊彦,中井満,下平博,嵯峨山茂樹: "ヤコビ適応法を用いた雑音環境と伝達特性への同時適応"日本音響学会2000年秋季研究発表会講演論文集,1-5-9. 17-18 (2000)
- Related Report
  2000 Annual Research Report
[Publications] 加藤裕,赤江俊彦,中井満,下平博,嵯峨山茂樹: "ヤコビ行列を用いた雑音環境への適応法の拡張"信学技報,SP2000-15. 39-46 (2000)
- Related Report
  2000 Annual Research Report
[Publications] 嵯峨山茂樹: "音声認識技術の原理・応用・展望"石川県産業大学講座技術セミナー. 1-26 (2000)
- Related Report
  2000 Annual Research Report

微分幾何学に基づく音声認識モデル適応法の研究

Principal Investigator

嵯峨山 茂樹 東京大学, 大学院・情報理工学系研究科, 教授 (00303321)

¥2,200,000 (Direct Cost: ¥2,200,000)

Report

Research Products

[Publications] K.fujinaga, M.Nakai, H.Shimadaira, S.Sagayama: "Multiple-Regression Hidden Markov Model"Proceedings of ICASSP 2001. (2001)

Related Report

[Publications] S.Sagayama, Y.Kato, M.Nakai, H.Shimoyama: "Jacobian Approach to Joint Adaptation to Noise, Channel and Vocal Tract Length"Proceedings of ISCA Workshop on Adaptation Methods (Sophia Antipolice France), Aug 2001. 117-120 (2001)

Related Report

[Publications] S.Sagayama, K.Shinoda, M.Nakai, H.Shinmodaira: "Analytic Methods for Acoustic Model Adaptation : A Review"Proceedings of ISCA Workshop on Adaptation Methods (Sophia Antipolice France), Aug 2001. (Invited Paper). 67-76 (2001)

Related Report

[Publications] 坂井 伸圭, 中井 満, 下平 博, 嵯峨山 茂樹: "ヤコビ適応法を用いた雑音環境・伝達特性・話者への同時適応"日本音響学会2001年秋季研究発表会講演論文集,3-1-21,, Oct. 133-134 (2001)

Related Report

[Publications] 坂井 伸圭, 中井 満, 下平 博, 嵯峨山 茂樹: "発音変形に対するヤコビ適応法"日本音響学会2001年秋季研究発表会講演論文集,3-2-7. (2002)

Related Report

[Publications] H.Shimodaira, N.Sakai, M.Nakai, S.Sagayama: "Jacobian Joint Adaptation to Noise, Channel and Vocal Tract Length"Proceedings of ICASSP2002, Orlando, USA, May 2002. (2002)

Related Report

[Publications] 藤永勝久,中井満,下平博,嵯峨山茂樹: "F0を変形要因とした重回帰HMMを用いた音声認識"日本音響学会2001年春季研究発表会講演論文集(論文番号3-3-5). (2001)

Related Report

[Publications] 藤永勝久,中井満,下平博,嵯峨山茂樹: "連続量を変形要因とする重回帰モデルを内包するHMM"信学技報SP2000-83. 49-54 (2000)

Related Report

[Publications] 加藤裕,赤江俊彦,中井満,下平博,嵯峨山茂樹: "ヤコビ適応法を用いた雑音環境と伝達特性への同時適応"日本音響学会2000年秋季研究発表会講演論文集,1-5-9. 17-18 (2000)

Related Report

[Publications] 加藤裕,赤江俊彦,中井満,下平博,嵯峨山茂樹: "ヤコビ行列を用いた雑音環境への適応法の拡張"信学技報,SP2000-15. 39-46 (2000)

Related Report

[Publications] 嵯峨山茂樹: "音声認識技術の原理・応用・展望"石川県産業大学講座技術セミナー. 1-26 (2000)

Related Report

嵯峨山茂樹東京大学, 大学院・情報理工学系研究科, 教授 (00303321)

[Publications] 坂井伸圭, 中井満, 下平博, 嵯峨山茂樹: "ヤコビ適応法を用いた雑音環境・伝達特性・話者への同時適応"日本音響学会2001年秋季研究発表会講演論文集,3-1-21,, Oct. 133-134 (2001)

[Publications] 坂井伸圭, 中井満, 下平博, 嵯峨山茂樹: "発音変形に対するヤコビ適応法"日本音響学会2001年秋季研究発表会講演論文集,3-2-7. (2002)