研究課題/領域番号 |
06650424
|
研究機関 | 熊本大学 |
研究代表者 |
渡邊 亮 熊本大学, 工学部, 教授 (50040382)
|
研究分担者 |
池田 隆 久留米工業高等専門学校, 助手 (80222884)
上田 裕市 熊本大学, 工学部, 助教授 (00141961)
|
キーワード | 不特定話者 / 単語音声認識 / 音素テンプレート / 単語辞書 / 類似度距離 |
研究概要 |
単語に依存しないテンプレートと音声信号には依存しない単語辞書による音声認識法を多数話者と多数の単語群に適用する可能性を明らかにするために、音素テンプレートの作成に母音以外は只一人の話者の一回の発声から得たものを使用するという最も簡便な方法を用いたとき、他の条件を整えることにより認識率がどの程度向上するか調べる研究をおこなった。特に、本年の研究では、入力する音声パラメータ群の構成と類似度距離の定義が認識率へ及ぼす影響を見ることにより、最適の状態を誘導し、その状態が他の話者群、他の単語群に適用されたときの認識率が利用に耐え得るものであるか否かを調べることに焦点を合わせた。パラメータ群には、従来よく用いられてきたフィルタバンク出力(32チャンネルメルスケール)の他に、調音様式と音源を識別するニューラルネットの出力と正規化ホルマントという本研究独自のものを用いた。30名の話者が2回づつ発生した30単語(地名など)を3群、60名の話者が1回発声した30単語1群を対象として認識テストを行った結果、フィルタバンク出力の類似度距離を1として他の2つのパラメータ群のそれをを0.2としたときが最も認識率が高く、話者、単語とも異なるにも拘わらず、全単語群の認識率が95.0%〜95.7%の間に入ることが判った。また、1パラメータ群や2パラメータ群の場合には、85.1〜94.1%の間に分布し単語群の違いによる認識率の差が大きいことが指摘された。これらの点から、構成の簡便さという特徴を生かしたまま条件の設定により認識率を実用レベルまで高めることの可能性が見出された。さらに、ここでは扱われなかった他の条件を吟味することにより、本方式の最適条件を求める研究を継続中である。
|