研究課題/領域番号 |
12878056
|
研究種目 |
萌芽的研究
|
配分区分 | 補助金 |
研究分野 |
知能情報学
|
研究機関 | 東京大学 (2001) 北陸先端科学技術大学院大学 (2000) |
研究代表者 |
嵯峨山 茂樹 東京大学, 大学院・情報理工学系研究科, 教授 (00303321)
|
研究分担者 |
田原 鉄也 東京大学, 大学院・情報理工学系研究科, 助手 (90272393)
中井 満 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149)
下平 博 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30206239)
|
研究期間 (年度) |
2000 – 2001
|
研究課題ステータス |
完了 (2001年度)
|
配分額 *注記 |
2,200千円 (直接経費: 2,200千円)
2001年度: 1,100千円 (直接経費: 1,100千円)
2000年度: 1,100千円 (直接経費: 1,100千円)
|
キーワード | 音声認識 / 雑音環境対応 / チャネル適応 / 話者適応 / ヤコビ行列 / ケプストラム / 声道長 / ロンバード効果 / 雑音環境適応 |
研究概要 |
隠れマルコフモデル(HMM)を用いた現代の音声認識技術では、雑音環境・回線・話者などの使用条件が変わると、しばしば大きな性能低下を起こす。その理由は、環境雑音のような加法性要因、マイクロフォンやアンプの特性などのような乗法性要因、さらに話者の相違のように複雑な要素が絡み合っている要因などにより、音声スペクトルが変形するからである。この現象にHMMを適志させる手法において、微分幾何学的な発想で、定式化、アルゴリズム開発、検証を行った。今年度の主な成果を以下に示す。 1.微分幾何に基づく音声認識モデルの雑音、チャネル、声道長への同時適応 音声認識の音響特徴量としてよく用いられるケプストラム(MFCCもその一種)は、スペクトルを変形させる加法性の要因である雑音スペクトルに対しては非線形な関係を持つ。雑音環境下での音声は、雑音(応力に相当)によってそのケプストラムが歪む。その局所的関係はヤコビ行列(応カテンソルに相当)で表される。これを「ヤコビ適応法」の名で発表して以来、高速で性能が高いことから、国外からも関連研究発表がなされている。今年度は、話者による声道長の相違を、未知の声道長比で表し、観測された特徴量との関係を微分的な観点で局所線形モデルの最小二乗法で未知変数を求めるアルゴリズムを提案した。音声認識実験により、性能が向上することを実証した。 2.ピッチ周波数(F_0)を要因とした変形を組み込んだHMM ピッチ周波数と音声スペクトル包絡の間には何らかの相関があることは知られている。これを、HMMの隠れ状態ごとの未知のパラメータを含む線形モデルとして解くと、それを推定するEMアルゴリズムとしてはMLLR(最尤線形回帰)法に類似し牟アルゴリズムが導かれる。この方法による認識性能の向上を音声認識実験で実証した。 3.雑音、チャネル、Lombard効果発声変形への同時要因推定と適応 高騒音下での発声はいわゆるLombard効果により発声変形する、これをスペクトルの周波数軸の非線形伸縮として少数の未知パラメータによりモデル化すると、観測されるケプストラムは微分量で表現でき、雑音、チャネルと併せて同時適応アルゴリズムが構成できる。実験により音声認識性能向上を実証した。
|