1995 Fiscal Year Annual Research Report
Project/Area Number |
06650424
|
Research Institution | Kumamoto University |
Principal Investigator |
渡邊 亮 熊本大学, 工学部, 教授 (50040382)
|
Co-Investigator(Kenkyū-buntansha) |
池田 隆 久留米工業高等専門学校, 助教授 (80222884)
上田 裕市 熊本大学, 工学部, 助教授 (00141961)
|
Keywords | 不特定話者 / 単語音声認識 / 入力パラメータ / 統計的距離尺度 / ニューラルネットワーク |
Research Abstract |
前年度の目標が、任意の一人の話者の音声から作った音素標準パターンとユークリッド距離を用いる実用上の単純化を考えたシステムの研究であったのに対し、本年度は、単語辞書の自由な記述という特徴を生かしながら、より多数の単語を一群とする場合にも高認識率を得ることのできるシステムにすることを目標に、複合パラメータと統計的距離尺度の効果を従来方式と比較しながら、最適の方法を導出することを試みた。まず、単一パラメータと本研究独自の相互補完性のある複合パラメータとの比較が前年度のシステムで行われ、従来用いられるケプストラムやΔケプストラムの係数よりも5%程度高い認識率(30名30単語で約95%)を得ることができることが示された。次に、メル尺度上で等間隔に中心周波数を定めた32チャンネルフィルタバンク出力によって、距離尺度の比較を行った。音素標準パターンを作成する音声資料の話者数が10人を越えるとき、統計的距離尺度としてのベイズ判定の距離がユークリッド距離を認識率の点で凌駕する。 最後に、複合パラメータにおける総合距離の定義を、音素認識率を最大にする各パラメータの荷重線形和として、荷重を求め、それを用いた単語認識性能を調べた。標準パターン作成用資料の話者(20名)とは異なる30名の話者が2回発声した50地名単語の認識に関し各種のパラメータの組み合わせに対し、いずれもベイズ距離がユークリッド距離よりも高い認識率を与えた。パラメータの付加効果はユークリッド距離の場合の方が大きく、ベイズ距離は、与えられた条件の中で良好な判定を行う距離尺度であると推定される。すべてのパラメータを組み合わせた場合の認識率は、ユークリッド距離では、94.7%、ベイズ距離では、96.8%であった。本研究の成果は、聴覚障害者補助のための音声画像化装置を発話訓練に用いる場合、訓練者による標準音声の文字表現として応用するのに十分なものである。
|