研究概要 |
顎義歯装着者の早期社会復帰を促すことを目的に,デジタル音声処理を応用した発音機能訓練装置の開発を試みた.被験者は成人男性5名とし,被験者は母音認識プログラムのために拗音と促音を除く66音,子音認識のために破裂音26音とした.音声を時定数3ms,低域通過フィルタ10kHzにて生体増幅アンプを通過させ,シグナルプロセッサを介してサンプリング周波数10kHzで量子化した.照合領域として音声波形の積分値および積分値の変化率を基準に先行子音の開始部,遷移部,後続母音安定部を設定し自動認識を試みた.分析フレーム長20ms,フレーム周期10msとし,先行子音開始部の40ms前から26フレームを分析対象区間とした.各分析フレームに対して1次の差分系を通したプリエンファシスを行い,線形予測法に基づく12次のPARCOR係数を度計算した.まず後続母音安定部における各次数ごとのPARCOR係数の平均値をテンプレートとし,認識対象音のPARCOR係数との絶対値距離が最小となる母音を認識第3位まで出力した.次に各破裂音ごとに最小先行子音フレーム数を算出し,遷移部から最小フレーム数だけ前を分析開始点とし,遷移部から後続母音にかけて3フレーム後までの区間を分析した.この分析区間における各破裂音ごとのPARCOR係数の平均値を求め,先行子音部のテンプレートを作成した.認識対象音の分析区間の時間軸を各テンプレートに合わせて線形に伸縮させ,絶対値距離を用いた類似計算でパターンマッチングを行い認識第5位まで出力した.その結果,母音の認識率は/a/100%,/i/95%,/u/95%,/e/97%,/o/90%で平均は95.4%であった.先行子音部の認識率は/k/84%,/t/80%,/g/84%,/d/80%,/b/72%,/p/72%であり,平均は78.5%であった.遷移部を中心とした本音声認識法は分析時間の短縮と認識率の点から発音機能訓練装置の音声認識方法として有効であると考える.
|