1993 年度研究成果報告書概要

連続音声認識のための音素認識における言語情報利用に関する研究

研究課題

研究課題/領域番号	03452173
研究種目	一般研究(B)
配分区分	補助金
研究分野	情報工学
研究機関	千葉工業大学
研究代表者	城戸健一千葉工業大学, 工学部, 教授 (30006209)
研究分担者	牧野正三東北大学, 応用情報学研究センタ, 助教授 (00089806) 荒井秀一千葉工業大学, 工学部, 講師 (20212590) 浮貝雅裕千葉工業大学, 工学部, 助教授 (80118695) 菅原研次千葉工業大学, 工学部, 教授 (00137853) 三井田惇郎千葉工業大学, 工学部, 教授 (10083859)
研究期間 (年度)	1991 – 1993
キーワード	連続音声認識 / 音声認識 / 音素認識 / 不特定話者 / 言語情報
研究概要	本研究では、不特定話者の音声を対象にして音素認識を高率で行うために、既存の音素認識法以外の高性能な音素認識法の提案と、音素を挟む長い時間区間にわたる言語情報を利用し得る言語処理法の開発を行った。基本となる音素認識法の改善として、時間-周波数分解能を制御できるWavelet変換を用いたHMMによる音素認識法としてMR-HMMを提案した。このMR-HMMを学習する方法は、様々なものが考えられるが、本研究では状態マージ学習法を提案することにより高い認識率を得ることができた。さらに音素認識の誤りに対処するための基本的枠組として、音素を挟む長い時間区間にわたる言語情報を利用し得るようにするために、現在の音声認識法のほとんどが利用しているケプストラム系の音響特徴量に固執せず、9種類の特徴量を併用する音素認識法を提案した。一般的に複数の特徴量を併用するには、各音響特徴量がどの音素の特徴を表現し得るかを予め調べた上で認識法を決定する必要があるが、本研究では、2カテゴリの分類に用いられる線形判別法を、帰属度という尺度を新たに提案することにより、多カテゴリの分類に利用可能にし、用いる特徴量の種類に依存せず、音響処理の結果の信頼性を示す指針を言語処理部へわたすことを可能にした。最後に、自由会話文に対応するために、文法的知識を用いず語の表層的共起関係に着目することで、音素認識の誤りをTopdownに制御できる構造を有する言語処理法を提案した。これにより日常会話文のように、文法が適用できないような自由な発声に対しても基本的には対応が可能であることが確認された。