研究課題
基盤研究(C)
ヒトの音声言語学習のモデル構築には、文字起こし情報を参照しない教師なし音声認識技術の開発が必要不可欠である。既存の教師なし機械学習では、文字起こし情報を参照する教師あり学習への接続を前提に、離散的音響特徴量の抽出が行われているが、その音響特徴量は過剰な時間解像度及び離散化解像度を有しており、音素のように低時間解像度・低離散化解像度の言語学的表現とは大きく乖離している。本研究は、完全な教師なし音声認識の実現に向け、離散音響特徴量の時間解像度・離散化解像度を大幅圧縮する機械学習技術の開発する。