• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

新聞記事読み上げ文を対象とする大語彙連続音声認識システムの研究

研究課題

研究課題/領域番号 10680368
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 知能情報学
研究機関山形大学

研究代表者

好田 正紀  山形大学, 工学部, 教授 (00205337)

研究分担者 加藤 正治  山形大学, 工学部, 助手 (10250953)
伊藤 彰則  山形大学, 工学部, 助教授 (70232428)
研究期間 (年度) 1998 – 2000
研究課題ステータス 完了 (2000年度)
配分額 *注記
3,300千円 (直接経費: 3,300千円)
2000年度: 500千円 (直接経費: 500千円)
1999年度: 600千円 (直接経費: 600千円)
1998年度: 2,200千円 (直接経費: 2,200千円)
キーワード大語彙連続音声認識 / 音響モデル / 言語モデル / デコーダ / 隠れマルコフ網 / N-gram / 話者適応 / タスク適応 / クラスN-gram / パープレキシティ / 単語誤り率 / エルゴディックHMM / マルチパスサーチ / 音素グラフ / 単語グラフ / HM-Net / SCFG / MLLR話者適応 / LPCメルケプストラム / triphone / N-gram言語モデル / 新聞記事読み上げ文
研究概要

新聞記事読み上げ文を対象とする日本語の大語彙連続音声認識システムを構築し、下記の研究成果を得た。
(1)音響モデル 隠れマルコフ網(HM-Net)は、音素環境依存HMMの状態共有関係をネットワークとして表現する手法であり、高精度かつ頑健な音声認識を実現する音響モデルとして有効である。本研究では、状態クラスタリングに基づく高速なHM-Netの構造決定法を提案した。また、音響モデルの最尤線形回帰(MLLR)ベース話者適応において、BIC基準に基づく回帰クラスタの自動設定法を提案し、MAP法との併用、SATコンパクトモデルの利用等も検討した。
(2)言語モデル 大量の一般的な言語コーパスと、少量の特定タスクのサンプルから、特定タスク向きのN-gramを重み付き混合で作成するタスク適応について検討した。単語誤り率との相関がより良い言語モデルの評価尺度として、評価テキストに出現する単語の言語尤度と、その単語が出現した文脈における最大尤度との差に基づく新しい評価尺度を提案し、パープレキシティより優れていることを確認した。確率文脈自由文法(SCFG)のパラメータ推定に要する処理量を大幅に削減するために、文節単位の係り受け制約をもつSCFGを提案し、このSCFGとTrigramを併用すると、Trigram単独より性能が良いことを確認した。
(3)デコーダ 大語彙連続音声認識のための高速な探索手法として、認識の前処理で音素グラフを作成し、認識段階ではその音素グラフの情報を利用して仮説の展開を制限しながら最良の単語列を探索する手法を提案した。また、単語グラフを中間表現とするマルチパスによる大語彙連続音声認識において、bigramによるリスコアリングに基づく、単語グラフ生成のための言語重み・挿入ペナルティの最適化を検討した。
(4)ソフトウエアツール 単語n-gramとクラスn-gramが作成可能なツールキットを作成した。このツールキットは、CMU-Cambridge SLM Toolkitとコマンドレベルで互換性がある。また、n-gram出現回数の混合による言語モデルや、線形結合による言語モデルの組み合わせをサポートしている。

報告書

(4件)
  • 2000 実績報告書   研究成果報告書概要
  • 1999 実績報告書
  • 1998 実績報告書
  • 研究成果

    (49件)

すべて その他

すべて 文献書誌 (49件)

  • [文献書誌] 堀貴明: "状態クラスタリングによるHM-Netの構造決定法の検討"電子情報通信学会論文誌(D-II). J81-D-II. 2239-2248 (1998)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] 堀貴明: "連続/セミ連続分布型HMMによる単語音声認識のViterbi best-firstサーチにおける推定スコタ設定法"電子情報通信学会論文誌(D-II). J81-D-II. 2526-2534 (1998)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] 堀貴明: "大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討"情報処理学会論文誌. 40. 1365-1373 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] 堀智織: "音声認識のための確率文脈自由文法に基づく言語モデルの構築と評価"電子情報通信学会論文誌(D-II). J83-D-II. 2407-2417 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] 伊藤彰則: "N-gram出現回数の混合によるタスク適応の性能解析"電子情報通信学会論文誌(D-II). J83-D-II. 2418-2427 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] 伊藤彰則: "A new metric for stochastic language model evaluation"Euro.Conf.on Speech Commu.and Technology. Vol.4. 1591-1594 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] 伊藤彰則: "Language modeling by stochastic dependency grammar for Japanese speech recognition"International Conf.on Spoken Language Processing. Vol.1. 246-249 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] T.Hori, M.Katoh, A.Ito, M.Kohda: "A Study on a State Clustering-Based Topology Design Method for HM-Hets"Trans. IEICE (D-II). Vol.J81-D-II.No.10. 2239-2248 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] T.Hori, M.Katoh, M.Kohda: "A Study on Heuristic Score Estimation in Viterbi Best-First Search for Isolated Word Recognition Using Continuous/Semi-Continuous HMMs"Trans. IEICE (D-II). Vol.J81-D-II, No.11. 2526-2534 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] T.Hori, N.Oka, M.Katoh, A.Ito, M.Kohda: "A Study on a Phoneme-graph-based Hypothesis Restriction for Large Vocabulary Continuous Speech Recognition"Trans. IPSJ.. Vol.40, No.4. 1365-1373 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] C.Hori, M.Katoh, A.Ito, M.Kohda: "Construction and Evaluation of Language Models Based on Stochastic Context Free Grammar for Speech Recognition"Trans. IEICE (D-II). Vol.J83-D-II, No.11. 2407-2417 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] A.Ito, M.Kohda: "Evaluation of Task Adaptation Using N-Gram Count Mixture"Trans. IEICE (D-II). Vol.J83-D-II, No.11. 2418-2427 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] A.Ito, M.Kohda, M.Ostendorf: "A New Metric for Stochastic Language Model Evaluation"Proc. Euro. Conf. on Speech Commu. and Technology. Vol.4. 1591-1594 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] A.Ito, C.Hori, M.Katoh, M.Kohda: "Language Modeling by Stochastic Dependency Grammar for Japanese Speech Recognition"Proc. International Conf. on Spoken Language Processing. Vol.1. 246-249 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2000 研究成果報告書概要
  • [文献書誌] 堀智織: "音声認識のための確率文脈自由文法に基づく言語モデルの構築と評価"電子情報通信学会論文誌(D-II). J83-D-II,11. 2407-2417 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 伊藤彰則: "N-gram出現回数の混合によるタスク適応の性能解析"電子情報通信学会論文誌(D-II). J83-D-II,11. 2418-2427 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 伊藤彰則: "Language modeling by stochastic dependency grammar for Japanese speech recognition"Proceedings of ICSLP 2000. Vol.1,M1-24. 246-249 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 加藤正治: "話者照合におけるMLLRベースの話者モデル作成の検討"電子情報通信学会技術研究報告. SP2000-19. 25-32 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 伊藤彰則: "N-gramに基づくエルゴディックHMMによる言語モデル"電子情報通信学会技術研究報告. SP2000-25. 67-74 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 斎院俊典: "単語グラフ生成の言語重み・挿入ペナルティ最適化の検討"電子情報通信学会技術研究報告. SP2000-26. 75-82 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 加藤正治: "単語グラフ生成におけるパラメータ最適化の検討"電子情報通信学会技術研究報告. SP2000-93. 107-112 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 伊藤彰則: "単語およびクラスN-gram作成のためのツールキット"電子情報通信学会技術研究報告. SP2000-106. 67-72 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 斎院俊典: "自然発話文の大語彙連続音声認識"情報処理学会東北支部研究会. 2000-4-13. 1-8 (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 田嶋昇: "HM-Net音響モデルを用いる話者照合"情報処理学会東北支部研究会. 2000-4-14. 1-7 (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 竹内亜未: "確率文脈自由文法に基づく言語モデル"情報処理学会東北支部研究会. 2000-4-15. 1-8 (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 竹内亜未: "確率文脈自由文法に基づく言語モデル"電気関係学会東北支部連合大会. 2A-3. 18 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 田嶋昇: "HM-Net音響モデルを用いる話者照合"電気関係学会東北支部連合大会. 2A-13. 28 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 夏井武雄: "セグメント単位入力HMMに基づく音声認識"電気関係学会東北支部連合大会. 2A-14. 29 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 加藤正治: "単語グラフ生成におけるパラメータ最適化の検討"日本音響学会講演論文集. 1-5-17. 33-34 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 伊藤彰則: "単語およびクラスN-gram作成のための統計的言語モデルツールキット"日本音響学会講演論文集. 2-3-12. 77-78 (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 堀 貴明: "大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討"情報処理学会論文誌. 40,4. 1365-1373 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 伊藤 彰則: "尤度差に基づくn-gram言語モデル評価のための指標"電子情報通信学会技術研究報告. SP99-39. 95-102 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 堀 智織: "確率文脈自由文法を用いた言語モデルの構築と音声認識実験による評価"電子情報通信学会技術研究報告. SP99-37. 79-86 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 伊藤 彰則: "A new metric for stochastic language model evaluation"Eurospeech '99. S8.po1. 1591-1594 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 加藤 正治: "複数の認識出力の統合による性能改善の検討"日本音響学会講演論文集. 2-1-16. 85-86 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 斎藤 秀樹: "bigram に基づく ergodic HMM による言語モデルの検討"日本音響学会講演論文集. 3-1-3. 101-102 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 伊藤 彰則: "N-best 候補からの言語重みと挿入ペナルティの最適化に関する検討"情報処理学会研究報告. 99-SLP-28-6. 35-40 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 岡 直生: "音素グラフに基づく仮説制限法を用いた大語彙連続音声認識の検討"電子情報通信学会技術研究報告. SP99-126. 67-72 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 加納 淳也: "話者照合における話者モデルの MLLR 適応の検討"電子情報通信学会技術研究報告. SP99-102. 55-60 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 斎院 俊典: "単語グラフ生成の言語重み・挿入ペナルティ最適化の検討"日本音響学会講演論文集. 2-8-12. 47-48 (2000)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 加納 淳也: "MLLR 適応における MDL 基準に基づく回帰クラスタ設定の検討"日本音響学会講演論文集. 3-9-5. 103-104 (2000)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 斎藤 秀樹: "Trigram に基づく Ergodic HMM による言語モデルの検討"日本音響学会講演論文集. 2-8-12. 51-52 (2000)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 小笠原 教充: "品詞と高頻度単語の N-gram を使用したタスク適応の検討"日本音響学会講演論文集. 3-8-5. 75-76 (2000)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 堀 貴明: "状能クラスタリングによるHM-Netの構造決定法の検討" 電子情報通信学会論文誌. J81-D-II,10. 2239-2248 (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 堀 貴明: "連続1セミ連続分布型HMMによる単語音声認識のViterbi best-firstサーチにおける推定スコア設定法の検討" 電子情報通信学会論文誌. J81-D-II,11. 2526-2534 (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 堀 貴明: "大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討" 電子情報通信学会技術研究報告. SP98-111. 25-32 (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 斎院俊典: "音素と音節を単位とするHM-Net音響モデルの検討" 情報処理学会東北支部研究会. 98-4-1. 1-8 (1999)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 鈴木健市: "大語彙連続音声認識におけるデコーダの評価" 情報処理学会東北支部研究会. 98-4-3. 17-24 (1999)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 亀山誠裕: "新聞記事コーパスからのN-gram言語モデル作成と音声認識実験による評価" 情報処理学会東北支部研究会. 98-4-4. 25-32 (1999)

    • 関連する報告書
      1998 実績報告書

URL: 

公開日: 1998-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi