研究概要 |
毎日新聞記事読み上げ文を対象として、語彙5000語の日本語の連続音声認識システムを構築した.音声言語データベースは日本音響学会新聞記事読み上げ音声コーパスJNAS(男性102名が発声した新聞記事と音素バランス文、計15732文)と、毎日新聞記事4年分(91-94)の言語コーパスを利用した.音声分析では、LPCメルケプストラム1〜12次と対数パワー、及び、それらの1次、2次回帰係数の、計39次元の特徴パラメータを抽出した.音響モデルでは、混合ガウス分布、tied stateのHM-Netでtriphoneをモデル化した.混合数4,8,16,状態数1600,2000とした.HM-Netの構造決定には、音素決定木及び状態クラスタリングの手法を利用した.単語辞書の音素表記を木構造化した.言語モデルでは、統計的言語モデルを基本とした. まずは代表的なN-gramを用いた.デコーダはマルチパスサーチで行った.第1パスでは、HM-Netのtriphone音響モデルとbigram言語モデルを用いて、単語対近似によるone-passアルゴリスムをフレーム同期、ビームサーチで実行し,単語グラフを作成した.単語間の音素環境、言語モデルの先読み(factoring)も考慮した.単語グラフは、各フレーム毎に、残った単語候補についてそのスコアと始端フレーム・先行単語のリストからなる.第2パスでは、単語グラフ上でN-bestの文リストをA^*サーチで求めて、trigram言語モデルでリスコアリングした.認識性能は、漢字仮名評価で単語誤り率5.4%、読み評価で単語誤り率3.5%を達成した.システム構築において、現有設備のHP-C180,C200等のWSを活用するとともに、現有WSのメモリ容量を1GB、ディスク容量を13GBに増強して、計算機設備を整備した上で研究を本格化した.
|