• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

1998 年度 実績報告書

新聞記事読み上げ文を対象とする日本語の大語彙連続音声認識システムの研究

研究課題

研究課題/領域番号 10680368
研究機関山形大学

研究代表者

好田 正紀  山形大学, 工学部, 教授 (00205337)

研究分担者 加藤 正治  山形大学, 工学部, 助手 (10250953)
伊藤 彰則  山形大学, 工学部, 講師 (70232428)
キーワード大語彙連続音声認識 / LPCメルケプストラム / triphone / HM-Net / N-gram言語モデル / マルチパスサーチ / 単語グラフ / 新聞記事読み上げ文
研究概要

毎日新聞記事読み上げ文を対象として、語彙5000語の日本語の連続音声認識システムを構築した.音声言語データベースは日本音響学会新聞記事読み上げ音声コーパスJNAS(男性102名が発声した新聞記事と音素バランス文、計15732文)と、毎日新聞記事4年分(91-94)の言語コーパスを利用した.音声分析では、LPCメルケプストラム1〜12次と対数パワー、及び、それらの1次、2次回帰係数の、計39次元の特徴パラメータを抽出した.音響モデルでは、混合ガウス分布、tied stateのHM-Netでtriphoneをモデル化した.混合数4,8,16,状態数1600,2000とした.HM-Netの構造決定には、音素決定木及び状態クラスタリングの手法を利用した.単語辞書の音素表記を木構造化した.言語モデルでは、統計的言語モデルを基本とした.
まずは代表的なN-gramを用いた.デコーダはマルチパスサーチで行った.第1パスでは、HM-Netのtriphone音響モデルとbigram言語モデルを用いて、単語対近似によるone-passアルゴリスムをフレーム同期、ビームサーチで実行し,単語グラフを作成した.単語間の音素環境、言語モデルの先読み(factoring)も考慮した.単語グラフは、各フレーム毎に、残った単語候補についてそのスコアと始端フレーム・先行単語のリストからなる.第2パスでは、単語グラフ上でN-bestの文リストをA^*サーチで求めて、trigram言語モデルでリスコアリングした.認識性能は、漢字仮名評価で単語誤り率5.4%、読み評価で単語誤り率3.5%を達成した.システム構築において、現有設備のHP-C180,C200等のWSを活用するとともに、現有WSのメモリ容量を1GB、ディスク容量を13GBに増強して、計算機設備を整備した上で研究を本格化した.

  • 研究成果

    (6件)

すべて その他

すべて 文献書誌 (6件)

  • [文献書誌] 堀 貴明: "状能クラスタリングによるHM-Netの構造決定法の検討" 電子情報通信学会論文誌. J81-D-II,10. 2239-2248 (1998)

  • [文献書誌] 堀 貴明: "連続1セミ連続分布型HMMによる単語音声認識のViterbi best-firstサーチにおける推定スコア設定法の検討" 電子情報通信学会論文誌. J81-D-II,11. 2526-2534 (1998)

  • [文献書誌] 堀 貴明: "大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討" 電子情報通信学会技術研究報告. SP98-111. 25-32 (1998)

  • [文献書誌] 斎院俊典: "音素と音節を単位とするHM-Net音響モデルの検討" 情報処理学会東北支部研究会. 98-4-1. 1-8 (1999)

  • [文献書誌] 鈴木健市: "大語彙連続音声認識におけるデコーダの評価" 情報処理学会東北支部研究会. 98-4-3. 17-24 (1999)

  • [文献書誌] 亀山誠裕: "新聞記事コーパスからのN-gram言語モデル作成と音声認識実験による評価" 情報処理学会東北支部研究会. 98-4-4. 25-32 (1999)

URL: 

公開日: 1999-12-11   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi