研究課題/領域番号 |
06650424
|
研究種目 |
一般研究(C)
|
配分区分 | 補助金 |
研究分野 |
情報通信工学
|
研究機関 | 熊本大学 |
研究代表者 |
渡邉 亮 (渡邊 亮) 熊本大学, 工学部, 教授 (50040382)
|
研究分担者 |
池田 隆 久留米工業高等専門学校, 助教授 (80222884)
上田 裕市 熊本大学, 工学部, 助教授 (00141961)
|
研究期間 (年度) |
1994 – 1995
|
研究課題ステータス |
完了 (1995年度)
|
配分額 *注記 |
2,000千円 (直接経費: 2,000千円)
1995年度: 600千円 (直接経費: 600千円)
1994年度: 1,400千円 (直接経費: 1,400千円)
|
キーワード | 不特定話者 / 単語音声認識 / 入力パラメータ / 統計的距離尺度 / ニューラルネットワーク / 音素テンプレート / 単語辞書 / 類似度距離 |
研究概要 |
本研究は、認識対象としての単語群とは無関係に音素標準パターンを作成し、必要な単語名を単語辞書に自由に記述するだけで、いかなる単語群も認識できる不特定話者単語音声認識方式の確立を目標としたものである。初年度は、音素標準パターンを、任意の一名の話者の発話からつくり、距離尺度としてユークリッド距離を使用した。パラメータは従来からよく使用されるフィルタバンク出力の他に、相互補完的効果をもつと思われる正規化ホルマント関連量と調音様式・音源に関するニューラルネット出力を加え、その効果を調べた。30名の話者による30単語、3群の認識結果によれば、すべてのパラメータを複合すると3群とも、安定に95〜96%の認識率に達することが示された。ケプストラム係数などとの比較も実施されたが、複合パラメータの方が5%高い認識率を与え、補完的パラメータの有効性を立証できた。 2年目の主テーマは、統計的距離尺度と複合パラメータの有効性を組み合わせて、より多数の単語を含む単語群に対する認識率の向上を図ることである。統計的距離尺度として、ベイズの距離を用いた場合、音素標準パターンを作成する音声の話者数が10人を越えるユークリッド距離より高い認識率を得ることができた。したがって、20人の話者によって音素標準パターンを作成し、他の30人が2回、50地名単語を発話した音声資料についてテストを行った。複合パラメータの総合距離を各パラメータ距離の線形荷重和とし、その荷重を音素認識率最大の条件から求めた。結果は、パラメータがどのように組み合わされても、ベイズ距離の認識率が高く、全パラメータ使用時の単語認識率は、96.8%(ユークリッド距離で、94.7%)であった。本研究の成果は、簡便な音声認識を必要とする場合、十分に応用目的に添うものである。
|