1. 近年の聴覚生理学的知見に基づいて、以前に我々が開発した蝸牛殻の非線形フィードバックモデルをより一層高度なモデル、即ち実際の聴覚特性をより良く表現でき、聴神経系の機能をも考慮した聴覚モデルに改良することを目的として、その聴覚モデルについての理論的検討を行った。 2. 最終的に聴覚モデルに整合のとれた不特定話者連続音声認識システムを開発するために、昨年度までの研究に引き続き、先に開発したサブワード単位離散単語認識(SWR)システムを基本システムとして使用し、このシステムにおけるサブワード境界検出性能と認識性能の話者や環境騒音に対するロバスト性を向上させるための理論的・実験的研究を行った。まず、SWRシステムに新たに「適応化」機能(「学習ベクトル量子化」機能と、中間出力情報(入力特徴ベクトルのサブワード類別に関する確率分布情報)を入力側にフィードバックさせてシステムを発声話者又は話者グループに適応させる機能)を導入し、そのシステムが、比較的定常的な雑音を重畳した音声及び不特定話者音声に対して適応化の効果があり、その認識性能と雑音耐性が従前のシステムに比して改善されることを各種雑音重畳音声並びに不特定話者音声に対する認識実験によって検証した。次いで、SWRシステムにおけるサブワード境界検出の精度と雑音耐性を向上させる目的で、新たに考案した方法を含む幾つかの境界検出法の有効性及びロバスト性を境界検出実験により比較・検討した。その結果、音声のスペクトルあるいはケプストラムの急激な変化点をサブワード境界とする方法、即ちΔスペクトル分析法あるいはΔケプストラム分析法が純音声並びに各種雑音重畳音声に対して比較的ロバストで高精度な方法であることを確認した。 来年度も引き続き、上記研究項目1.、2.に関して更に深く理論的・実験的研究を行う予定である。
|