研究概要 |
本研究では、情報協調・情報統合およびマルチモーダル音声認識について、精度向上のためのさまざまな検討を行った。また得られた知見を音声認識以外の分野に適用し、本研究の成果の有効性を確認した。 まず、マルチモーダル音声認識の情報統合において、モダリティ間の時間ズレや画像のフレームレートの低下が、認識性能へ与える影響を調査した。時間ズレに関しては、同期状態から乖離するにつれて性能が低下することを確認し、ズレを数十ミリ秒以内に抑えるべきであるとの結論に至った。フレームレートについては、学習時には高いフレームレートが望ましい一方、認識時には7.5フレーム/秒以上の値が確保できれば問題ないことが判明した。これらの研究成果は、情報協調・情報統合のアルゴリズムおよびシステムの実装の改良に非常に有益である。 次に、マルチモーダル音声認識の画像特徴量の改善を試みた。画像から得られた特徴を特異値分解などにより正規化・直交化することで、従来の特徴量と比べて最大6,4%の向上(音声のみと比べ39.5%の誤り率削減)が得られた。本手法は、立体情報を含むさまざまな画像情報に適用が可能である。 マルチモーダル音声認識においても、音声区間を事前に識別することが性能改善に有効と考えられる。そこで本研究の情報統合手法を活用し、マルチモーダル音声区間検出の手法を構築した。モデルベースの初期統合法では、各モダリティのみの結果と比較して、最大で約5,5%識別性能が向上した。モデルを用いない統合手法では、等誤り率で、クリーン環境で3.4%、実環境下で1.5%の識別性能改善がみられ、いずれの手法においても、本研究で得られた知見は有効に機能していることが確かめられた。
|