研究概要 |
本年度は,「音声入力による公文書作成支援装置」の音響処理部の開発に重点を置いて研究を行った.本研究では,神経回路網の一つである識別学習に基づく音素認識法を開発した.従来の識別学習法では,固定長パターンを対象として研究が行われてきたが,音素認識に適用する場合は,可変長パターンに対して識別学習を適用する必要がある.そのためには,(1)複数パターンの平均化法,(2)パターンのクラスタリング法,(3)パターンの修正法,の3つの問題を解決する必要がある.パターン間の距離尺度としてはDP距離尺度を用いた.複数パターンの平均化法としては,長さの近いもの同士の平均化を繰返して単一のパターンとする方法と,平均的な長さのパターンに統合して行く方法の2方法を提案し比較した.パターンのクラスタリング法としては,各音素独立に行う方法と,音素相互間の分布を考慮して行う方法を提案し比較した.パターンの修正法としては.我々が提案した修正LVQ2法を用いた.音素認識実験によって比較した結果,複数パターンの平均化法としては,平均的長さのパターンに統合して行く方法がよく,クラスタリングの方法としては音素相互間の分布を考慮した方法がよいことがわかった.また標準パターンは前後30ms程度を付加して作成した方がよいことも明らかになった.その結果,固定長パターンでは,78.8%であった音素認識率が80.2%へと向上した.さらに,この標準パターンを用いて連続音声をセグメンテーションに認識する方法を提案した.2段DPマッチングを連接確立と持続時間長の確率を考慮できるように拡張した.認識率68.1%,付加率12.5%,脱落率4.2%という値が得られた.
|