研究概要 |
本研究では,連続発生された音声を自動的に音韻が変化する部分を検出してさらにそれぞれのセグメントの音の認識を行なうための方法について考察した. 音声は16kHzでサンプリングし,それを10次の自己回帰モデルで表現し,それをもとにナイキスト周波数までを等間隔に分ける周波数を10個選択し,その周波数でのスペクトルを特徴ベクトルとした. 音声の変化点は従来行なわれているように固定の大きさの窓を設けてその中で同定を行ない,窓をずらして特徴ベクトルの変化点を検出するのではなく,遺伝的アルゴリズムにより音素の切れ目を設定し,それにより区分化されたデータよりLevinson-Durbin法により自己回帰モデルを計算した. 優れた切れ目であればそこで生成したモデルとデータの適合度が高くなり,切れ目が悪ければ1つのモデルで表現することが困難であることから適合度が悪く,誤差が大きくなるという原理である. この誤差の2乗和を元にしてそれの逆数を適合度と定義し,遺伝的アルゴリズムを繰り返す.遺伝的アルゴリズムは個体数を10個とし,各個体は切れ目の数ほど整数からなる要素を持つ.通常遺伝的アルゴリズムでは2進数が用いられるが,ここでは個体の長さを短くするためにこのようなコードを用いた.繰り返しは20回行なった. 実験では,まず母音各10個ずつを使って3層の階層型ニューラルネットで学習し,認識モデルを作成した.これは他のデータを使っても90%以上の正解率を得る優れたモデルであった.次に,/おはよう/と,母音以外の音韻を含む音をこのアルゴリズムにしたがって7個の区間に分け,それぞれの特徴ベクトルを認識させたところ,耳で聞いて音の変化点と思われる点でほぼ分割された.また,/は,/よ/の部分ではモデルにない子音が含まれているためあいまいな認識結果を得た.
|