1998 Fiscal Year Annual Research Report
新聞記事読み上げ文を対象とする日本語の大語彙連続音声認識システムの研究
Project/Area Number |
10680368
|
Research Institution | Yamagata University |
Principal Investigator |
好田 正紀 山形大学, 工学部, 教授 (00205337)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 正治 山形大学, 工学部, 助手 (10250953)
伊藤 彰則 山形大学, 工学部, 講師 (70232428)
|
Keywords | 大語彙連続音声認識 / LPCメルケプストラム / triphone / HM-Net / N-gram言語モデル / マルチパスサーチ / 単語グラフ / 新聞記事読み上げ文 |
Research Abstract |
毎日新聞記事読み上げ文を対象として、語彙5000語の日本語の連続音声認識システムを構築した.音声言語データベースは日本音響学会新聞記事読み上げ音声コーパスJNAS(男性102名が発声した新聞記事と音素バランス文、計15732文)と、毎日新聞記事4年分(91-94)の言語コーパスを利用した.音声分析では、LPCメルケプストラム1〜12次と対数パワー、及び、それらの1次、2次回帰係数の、計39次元の特徴パラメータを抽出した.音響モデルでは、混合ガウス分布、tied stateのHM-Netでtriphoneをモデル化した.混合数4,8,16,状態数1600,2000とした.HM-Netの構造決定には、音素決定木及び状態クラスタリングの手法を利用した.単語辞書の音素表記を木構造化した.言語モデルでは、統計的言語モデルを基本とした. まずは代表的なN-gramを用いた.デコーダはマルチパスサーチで行った.第1パスでは、HM-Netのtriphone音響モデルとbigram言語モデルを用いて、単語対近似によるone-passアルゴリスムをフレーム同期、ビームサーチで実行し,単語グラフを作成した.単語間の音素環境、言語モデルの先読み(factoring)も考慮した.単語グラフは、各フレーム毎に、残った単語候補についてそのスコアと始端フレーム・先行単語のリストからなる.第2パスでは、単語グラフ上でN-bestの文リストをA^*サーチで求めて、trigram言語モデルでリスコアリングした.認識性能は、漢字仮名評価で単語誤り率5.4%、読み評価で単語誤り率3.5%を達成した.システム構築において、現有設備のHP-C180,C200等のWSを活用するとともに、現有WSのメモリ容量を1GB、ディスク容量を13GBに増強して、計算機設備を整備した上で研究を本格化した.
|
-
[Publications] 堀 貴明: "状能クラスタリングによるHM-Netの構造決定法の検討" 電子情報通信学会論文誌. J81-D-II,10. 2239-2248 (1998)
-
[Publications] 堀 貴明: "連続1セミ連続分布型HMMによる単語音声認識のViterbi best-firstサーチにおける推定スコア設定法の検討" 電子情報通信学会論文誌. J81-D-II,11. 2526-2534 (1998)
-
[Publications] 堀 貴明: "大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討" 電子情報通信学会技術研究報告. SP98-111. 25-32 (1998)
-
[Publications] 斎院俊典: "音素と音節を単位とするHM-Net音響モデルの検討" 情報処理学会東北支部研究会. 98-4-1. 1-8 (1999)
-
[Publications] 鈴木健市: "大語彙連続音声認識におけるデコーダの評価" 情報処理学会東北支部研究会. 98-4-3. 17-24 (1999)
-
[Publications] 亀山誠裕: "新聞記事コーパスからのN-gram言語モデル作成と音声認識実験による評価" 情報処理学会東北支部研究会. 98-4-4. 25-32 (1999)