2000 Fiscal Year Annual Research Report
Project/Area Number |
12878056
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
嵯峨山 茂樹 北陸先端科学技術大学院大学, 情報科学研究科, 教授 (00303321)
|
Co-Investigator(Kenkyū-buntansha) |
中井 満 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149)
下平 博 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30206239)
|
Keywords | 音声認識 / 雑音環境適応 / チャネル適応 / 話者適応 / ヤコビ行列 / ケプストラム / 声道長 |
Research Abstract |
隠れマルコフモデル(HMM)を用いた現代の音声認識技術では、雑音環境・回線・話者などの使用条件が変わると、しばしば大きな性能低下を起こす。その理由は、環境雑音のような加法性要因、マイクロフォンやアンプの特性などのような乗法性要因、さらに話者の相違のように複雑な要素が絡み合っている要因などにより、音声スペクトルが変形するからである。この現象にHMMを適応させる手法において、微分幾何学的な発想で、定式化、アルゴリズム開発、検証を行った。主な成果を以下に示す。 1.微分幾何に基づく音声認識モデルの雑音への同時適応 音声認識の音響特徴量としてよく用いられるケプストラム(MFCCもその一種)は、スペクトルを変形させる加法性の要因である雑音スペクトルに対しては非線形な関係を持つ。雑音環境下での音声は、雑音(応力に相当)によってそのケプストラムが歪む。その局所的関係はヤコビ行列(応力テンソルに相当)で表される。これは、すでに報告者が「ヤコビ適応法」の名で発表しているアルゴリズムの幾何的解釈であり、高速で性能が高いことから注目を集め、国外からも関連研究発表があいついでいる。 2.微分幾何に基づく音声認識モデルの雑音とチャネルへの同時要因推定と適応 加法性の要因である雑音スペクトルと、乗法性の要因であるチャネルとの双方の未知の影響を同時に受けた音声が与えられた場合、両要因と歪みとの関係を微分幾何的に線形化し、各要因を最小2乗法で推定することにより、要因が分離推定できる。実験により、分離推定した要因からモデルを最構成すると音声認識性能が向上することを実証した。これは、この目的の最高速のアルゴリズムである。 3.雑音、チャネル、異話者への同時要因推定と適応 話者間のスペクトルの差異の要因の一つは声道長の相違であり、これはスペクトルの周波数軸の線形伸縮として現れる。伸縮係数λの微小変化(応力に相当)に対し、ケプストラムがどのように変動するか(歪みに相当)は、やはり微分量で表現でき、雑音、チャネルと合わせて同時適応アルゴリズムが構成できることを示し、実験により音声認識性能向上を実証した。 以上の他に、ピッチ周波数(F_0)を要因とした変形を組み込んだモデルを提案し、性能向上を実証した。
|
Research Products
(5 results)
-
[Publications] 藤永勝久,中井満,下平博,嵯峨山茂樹: "F0を変形要因とした重回帰HMMを用いた音声認識"日本音響学会2001年春季研究発表会講演論文集(論文番号3-3-5). (2001)
-
[Publications] 藤永勝久,中井満,下平博,嵯峨山茂樹: "連続量を変形要因とする重回帰モデルを内包するHMM"信学技報SP2000-83. 49-54 (2000)
-
[Publications] 加藤裕,赤江俊彦,中井満,下平博,嵯峨山茂樹: "ヤコビ適応法を用いた雑音環境と伝達特性への同時適応"日本音響学会2000年秋季研究発表会講演論文集,1-5-9. 17-18 (2000)
-
[Publications] 加藤裕,赤江俊彦,中井満,下平博,嵯峨山茂樹: "ヤコビ行列を用いた雑音環境への適応法の拡張"信学技報,SP2000-15. 39-46 (2000)
-
[Publications] 嵯峨山茂樹: "音声認識技術の原理・応用・展望"石川県産業大学講座技術セミナー. 1-26 (2000)