音声認識手法の高度化に関する研究

Research Project

Project/Area Number	01608001
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Research Institution	Tohoku University
Principal Investigator	城戸健一東北大学, 応用情報学研究センター, 教授 (30006209)
Co-Investigator(Kenkyū-buntansha)	北澤茂良静岡大学, 工学部, 助教授 (00109018) 好田正紀山形大学, 工学部, 教授 (00205337) 牧野正三東北大学, 応用情報学研究センター, 助教授 (00089806) 松本弘信州大学, 工学部, 助教授 (60005452) 加藤正信東北大学, 文学部, 教授 (90004035)
Project Period (FY)	1987 – 1989
Project Status	Completed (Fiscal Year 1989)
Budget Amount *help	¥15,500,000 (Direct Cost: ¥15,500,000) Fiscal Year 1989: ¥15,500,000 (Direct Cost: ¥15,500,000)
Keywords	音声認識 / 言語処理 / 音素認識 / DPビームサーチ / 話者適応 / 方言学
Research Abstract	本研究の目標は、1.文章を朗読した音声を認識対象とした連続音声認識システム(日本語Dictationシステム)の作成2.音声学的見地からの既存の音声認識の枠組みの見直し3.既存の音声認識手法の見直しの3つである。以下に研究成果を述べる。1.日本語Dictationシステムこのシステムは話者適応部、音響処理部、音素認識部、統語処理部からなる。話者適応部では、教師無し高速話者適応化法を開発した。この方法では、入力音声の内容は未知でよく、かつ4秒程度の音声があれば十分機能する。音素認識部では、修正LVQ2法と最適音素系列選択法による高精度音素認識法を開発した。不特定話者単語音声(男性3名、女性2名)に対して、音素認識率86.5%、脱落率1.7%、付加率9.0%、多数話者連続音声(男性2名、文節単位)に対して、音素認識率86.1%、脱落率3.9%、付加率7.7%を得た。統語処理部では、一般的な日本語を対象とした言語情報処理システムを開発した。具体的には、文節オートマトンに基づく構文駆動型連続DP法と構文意味情報を利用した統語処理法である。音素認識率85%を仮定したシミュレーション実験の結果、文認識率62.5%、文節認識率79.8%を得た。最後に、日本語Dictationシステムのプロトタイプを作成した。このシステムの語彙(異なり語数)は、実質語(名詞、動詞、形容詞など)853語、付属語(助詞、助動詞など)281語である。多数話者連続音声へ適用したところ、文認識率32.6%、文節認識率73.2%を得た。2.音声学的見地からの既存の音声認識の枠組みの見直しでは、東北地方における方言音と標準音の関係を明らかにした。さらに自動音声認識の立場からの音素の再定義も試みた。3.既存の音声認識手法の見直しでは、DPビームサーチによる認識アルゴリズムの計算量低減のための効率の良い技刈法を提案するとともに、確率に基づいたネットワーク素子を用いた音素認識法を開発した。

Report

(1 results)

1989 Annual Research Report

Research Products
(8 results)

All Other

All Publications (8 results)

[Publications] 好田: "DPビームサーチの閾値関数の検討" 電子情報通信学会論文誌DーII. J72ーDーII. 1248-1255 (1989)
- Related Report
  1989 Annual Research Report
[Publications] 松本,山下: "ベクトル量子化誤差の区分平均化による教師なし話者適応" 電子情報通信学会論文誌A. J72ーA. 869-872 (1989)
- Related Report
  1989 Annual Research Report
[Publications] Hiroshi Matsumoto: "Text independent speaker identification from short utterances based on piecewise discriminant analysis" Computer Speech and Language. 3. 133-150 (1989)
- Related Report
  1989 Annual Research Report
[Publications] 三輪,長宝: "3音素組コンテキストの音素混同確率行列を用いた単語音声認識" 電子情報通信学会論文誌DーII. J72ーDーII. 1234-1241 (1989)
- Related Report
  1989 Annual Research Report
[Publications] 古賀,牧野,城戸: "ローカルピークによる語中母音の認識率改善の一方法" 日本音響学会誌. 45. 290-292 (1989)
- Related Report
  1989 Annual Research Report
[Publications] 廖,牧野,城戸: "スペクトルの時間変化、ローカルピーク,傾斜を利用した破裂子音の検出と認識の検討" 日本音響学会誌. 45. 499-506 (1989)
- Related Report
  1989 Annual Research Report
[Publications] 壇辻: "講座日本語と日本語教育第11巻言語学要説(上)(「音声学と音韻論」分担)" 明治書院, 39 (1989)
- Related Report
  1989 Annual Research Report
[Publications] 今石,三輪: "講座日本語と日本語教育(「母音の音響的特長ー方言による差異ー」分担)" 明治書院, 24 (1989)
- Related Report
  1989 Annual Research Report

音声認識手法の高度化に関する研究

Principal Investigator

城戸 健一 東北大学, 応用情報学研究センター, 教授 (30006209)

¥15,500,000 (Direct Cost: ¥15,500,000)

Report

Research Products

[Publications] 好田: "DPビームサーチの閾値関数の検討" 電子情報通信学会論文誌DーII. J72ーDーII. 1248-1255 (1989)

Related Report

[Publications] 松本,山下: "ベクトル量子化誤差の区分平均化による教師なし話者適応" 電子情報通信学会論文誌A. J72ーA. 869-872 (1989)

Related Report

[Publications] Hiroshi Matsumoto: "Text independent speaker identification from short utterances based on piecewise discriminant analysis" Computer Speech and Language. 3. 133-150 (1989)

Related Report

[Publications] 三輪,長宝: "3音素組コンテキストの音素混同確率行列を用いた単語音声認識" 電子情報通信学会論文誌DーII. J72ーDーII. 1234-1241 (1989)

Related Report

[Publications] 古賀,牧野,城戸: "ローカルピークによる語中母音の認識率改善の一方法" 日本音響学会誌. 45. 290-292 (1989)

Related Report

[Publications] 廖,牧野,城戸: "スペクトルの時間変化、ローカルピーク,傾斜を利用した破裂子音の検出と認識の検討" 日本音響学会誌. 45. 499-506 (1989)

Related Report

[Publications] 壇辻: "講座日本語と日本語教育第11巻言語学要説(上)(「音声学と音韻論」分担)" 明治書院, 39 (1989)

Related Report

[Publications] 今石,三輪: "講座日本語と日本語教育(「母音の音響的特長ー方言による差異ー」分担)" 明治書院, 24 (1989)

Related Report

城戸健一東北大学, 応用情報学研究センター, 教授 (30006209)