本研究により得られた知見を、要約すると以下のようになる。 1.大語彙単語音声データベースの作成: 音素ラベルを音素表記と音声表記のどちらでもアクセスできるデータベースの重要性を示した。 2.シンプルな機構を持つ音素認識法の開発: 異なる時間の音素カテゴリの相互情報を利用するため、階層型音素認識ネットワーク素子による音素認識方式を提案した。特定話者認識実験より、94.1%の高い音素認識率となり、従来型と比較して/N/等の音素の認識率が改善され、異なる性質の事後確率系列が得られることを示した。 3.ボトムアップ処理による単語音声認識法の開発:3音素組コンテキストの音素混同行列を用いた方式を提案し、音素系列のマッチングによる方法であるため、認識性能が高く、高速処理が可能であり、単語の予備選択に有効であることを示した。 4.トップダウン処理による単語音声認識法の開発: 単語の仮説と事後確率系列による単語の検定により認識精度を高める方式は、入力音声の特徴に依存した検定が可能なため、認識性能向上に有効であることを示した。 5.大語彙単語音声認識実験: 5240単語の大語彙単語音声認識実験を行い、特定話者で84.4%の単語認識率を得ることができた。この実験から、性質の異なる事後確率系列を相加平均して用いることが有効であり、認識率と処理時間の観点から大語彙の単語音声認識には、トップダウン処理とボトムアップ処理を併用した本方式が有効であることを示した。 6.研究成果の公表: 本研究の成果を、日本音響学会の講演会および電子情報通信学会の音声研究会で口頭発表した。
|