音声認識手法の高度化に関する研究

研究課題

研究課題/領域番号	01608001
研究種目	重点領域研究
配分区分	補助金
研究機関	東北大学
研究代表者	城戸健一東北大学, 応用情報学研究センター, 教授 (30006209)
研究分担者	北澤茂良静岡大学, 工学部, 助教授 (00109018) 好田正紀山形大学, 工学部, 教授 (00205337) 牧野正三東北大学, 応用情報学研究センター, 助教授 (00089806) 松本弘信州大学, 工学部, 助教授 (60005452) 加藤正信東北大学, 文学部, 教授 (90004035)
研究期間 (年度)	1987 – 1989
研究課題ステータス	完了 (1989年度)
配分額 *注記	15,500千円 (直接経費: 15,500千円) 1989年度: 15,500千円 (直接経費: 15,500千円)
キーワード	音声認識 / 言語処理 / 音素認識 / DPビームサーチ / 話者適応 / 方言学
研究概要	本研究の目標は、1.文章を朗読した音声を認識対象とした連続音声認識システム(日本語Dictationシステム)の作成2.音声学的見地からの既存の音声認識の枠組みの見直し3.既存の音声認識手法の見直しの3つである。以下に研究成果を述べる。1.日本語Dictationシステムこのシステムは話者適応部、音響処理部、音素認識部、統語処理部からなる。話者適応部では、教師無し高速話者適応化法を開発した。この方法では、入力音声の内容は未知でよく、かつ4秒程度の音声があれば十分機能する。音素認識部では、修正LVQ2法と最適音素系列選択法による高精度音素認識法を開発した。不特定話者単語音声(男性3名、女性2名)に対して、音素認識率86.5%、脱落率1.7%、付加率9.0%、多数話者連続音声(男性2名、文節単位)に対して、音素認識率86.1%、脱落率3.9%、付加率7.7%を得た。統語処理部では、一般的な日本語を対象とした言語情報処理システムを開発した。具体的には、文節オートマトンに基づく構文駆動型連続DP法と構文意味情報を利用した統語処理法である。音素認識率85%を仮定したシミュレーション実験の結果、文認識率62.5%、文節認識率79.8%を得た。最後に、日本語Dictationシステムのプロトタイプを作成した。このシステムの語彙(異なり語数)は、実質語(名詞、動詞、形容詞など)853語、付属語(助詞、助動詞など)281語である。多数話者連続音声へ適用したところ、文認識率32.6%、文節認識率73.2%を得た。2.音声学的見地からの既存の音声認識の枠組みの見直しでは、東北地方における方言音と標準音の関係を明らかにした。さらに自動音声認識の立場からの音素の再定義も試みた。3.既存の音声認識手法の見直しでは、DPビームサーチによる認識アルゴリズムの計算量低減のための効率の良い技刈法を提案するとともに、確率に基づいたネットワーク素子を用いた音素認識法を開発した。