1994 Fiscal Year Annual Research Report

音素セグメンテーションユニットを用いる大語彙単語音声認識システム

Research Project

Project/Area Number	05555102
Research Institution	Tokyo Institute of Techology
Principal Investigator	今井聖東京工業大学, 精密工学研究所, 教授 (50016763)
Keywords	単語音声認識 / 音素セグメンテーション / 音素ラベリング / 大語彙化 / マルチレファレンスパターン / 並列音素ラベリング方式 / セグメントラティス / マルチセグメンテーション方式
Research Abstract	音素セグメンテーションユニットを用いる様々なタイプの単語音声認識システムによる認識実験を通して大語彙化に対する問題点を明らかにし、その解決を試みた。 (1)特定話者で単語数が1845語、4915語の場合の上位3位正解率は、従来のシステムでは、それぞれ96.5%、94.5%、であり、2万語のときには約90%になった。これらの正解率を向上させるためにセグメンテーション方式の改良とパターンマチング方式の改良を行った。 (2)セグメンテーションにおける挿入エラーが殆ど起こらないセグメンテーションシステムと脱落エラーが殆ど起こらないシステムを並列に接続する形のマルチセグメンテーション方式のシステムによって単語認識率の向上を図った結果、1845語、4915語の場合、上位1位正解率は、従来のものに比べて、それぞれ、1ないし2%の改善がみられたが、上位3位の正解率では0.5ないし1.0%の改善しか得られなかた。現在、別の方法による改善を考えている。 (3)各話者ごとに作成した音素レファレンスパターンのセットを基本セットとして、これを複数話者分用意し、声質や発声様式の似た話者の基本セットを混合したレファレンスを用いたシステムを構成することによって、1ないし2%の改善がみられた。また、声質や発声様式の基本セットを複数用いて、並列に音素ラベリングと単語マッチングを行う形の並列音素ラベリング方式によるシステムと構成することによって、従来のシステムに対し、1ないし2%の改善がみられた、さらに、混合形と並列形とを組み合わせることによって2〜3%の改善があった。

Research Products
(5 results)

All Other

All Publications (5 results)

[Publications] 菅野俊夫: "雑音劣化音声の一般化ケプストラムモデル化における事前情報の利用" 電子情報通信学会論文誌. J77-A. 945-953 (1994)
[Publications] 徳田恵一: "適応メルケプストラム分析を利用した音声符号化とその評価" 電子情報通信学会論文誌. J77-A. 1443-1452 (1994)
[Publications] 古市千枝子: "話音独立な特徴パラメータを用いた英語連続音声の音素セグメンテーションシステム" 電子情報通信学会論文誌. J78-A. (1995)
[Publications] Ming-Shen WANG: "A New Approach of Parsing and Speech Based on the Divide and Conguer Strategy for Continnois Speech Recognition" IEICE Trans.on Information and Systems. E78-D. (1995)
[Publications] 胡力游: "中国語連続音声の声調認識" 電子情報通信学会論文誌. J78-A. (1995)

1994 Fiscal Year Annual Research Report

音素セグメンテーションユニットを用いる大語彙単語音声認識システム

Principal Investigator

今井 聖 東京工業大学, 精密工学研究所, 教授 (50016763)

Research Products

[Publications] 菅野俊夫: "雑音劣化音声の一般化ケプストラムモデル化における事前情報の利用" 電子情報通信学会論文誌. J77-A. 945-953 (1994)

[Publications] 徳田恵一: "適応メルケプストラム分析を利用した音声符号化とその評価" 電子情報通信学会論文誌. J77-A. 1443-1452 (1994)

[Publications] 古市千枝子: "話音独立な特徴パラメータを用いた英語連続音声の音素セグメンテーションシステム" 電子情報通信学会論文誌. J78-A. (1995)

[Publications] Ming-Shen WANG: "A New Approach of Parsing and Speech Based on the Divide and Conguer Strategy for Continnois Speech Recognition" IEICE Trans.on Information and Systems. E78-D. (1995)

[Publications] 胡 力游: "中国語連続音声の声調認識" 電子情報通信学会論文誌. J78-A. (1995)

今井聖東京工業大学, 精密工学研究所, 教授 (50016763)

[Publications] 胡力游: "中国語連続音声の声調認識" 電子情報通信学会論文誌. J78-A. (1995)