研究概要 |
1.音声の音響処理と音素の特徴抽出 基本周派数間隔標本化に基づく音声パワー, スペクトル包絡分析法によって子音のスペクトル分析を行った. 線形予測分析と比較して, 特に, 鼻子音の場合に認識精度が向上することを確認した. 2.音素の特徴の統計処理と特徴の抽出 より厳密に定義したセグメンテーションとして調音事象の自動抽出を行った. 我々は次の3方式を試みた. (1)知識光学的手法に基づく方式 仮定(破裂子音, 鼻子音など)をたて, その仮定の証明を試みる. 試行錯誤の結果得られた知識を順次付加し, 知識を体系化したり修正したりする. このための枠組みは, Prolog言語のバック・トラック機構を利用して実現している. (2)音声波形から得られた規則に基づく方式 視察によって破裂時点を決定する過程を規則として記述することを試みている. ここで抽出した規則を適用したときの有効性を評価した. (3)学習に基づく方式 短時間パワーの変化の時系列を入力して与えたときに破裂時点で出力するニューラルネットワークを構成した. 3.音素の識別理論の構築 多群パターンの認識で, すべての対について2群間の識別を行い, この結果を用いて多群への識別を行なう認識方法をすでに提案している. この対識別の理論のなかでの変数選択の効果と無効な対識別が最終結果に及ぼす影響について考察した. こうしてミニマックス法を用いることの根拠を明らかにすることができた. 4.音素識別機構の簡略化 我々は, 手軽に高精度の音声入出力が行なえる装置としてPCMプロセッサとパーソナルコンピュータを接続した実時間音声入出力システムを製作した. 音声信号処理の高速化のためにパーソナルコンピュータと接続できるディジタル・シグナル・プロセッサ・ボードを開発した.
|