音声対話における音声の認識と合成に関する研究

Research Project

Project/Area Number	05241104
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Research Institution	Kyoto Institute of Technology
Principal Investigator	新美康永京都工芸繊維大学, 工芸学部, 教授 (00026030)
Co-Investigator(Kenkyū-buntansha)	広瀬啓吉東京大学, 工学部, 教授 (50111472) 中川聖一豊橋技術科学大学, 工学部, 教授 (20115893) 北澤茂良静岡大学, 工学部, 教授 (00109018) 粕谷英樹宇都宮大学, 工学部, 教授 (20006240) 板倉文忠名古屋大学, 工学部, 教授 (30168299) 牧野正三東北大学, 情報科学研究科, 助教授 (00089806)
Project Period (FY)	1995
Project Status	Completed (Fiscal Year 1995)
Budget Amount *help	¥116,300,000 (Direct Cost: ¥116,300,000) Fiscal Year 1995: ¥32,600,000 (Direct Cost: ¥32,600,000) Fiscal Year 1994: ¥38,100,000 (Direct Cost: ¥38,100,000) Fiscal Year 1993: ¥45,600,000 (Direct Cost: ¥45,600,000)
Keywords	対話音声 / 音響分析 / 雑音抑制 / 音声合成 / 合成音の心理的評価 / 音声認識 / 未知語処理 / 対話モデル / 音響分布
Research Abstract	今年度は、対話音声の分析、認識、合成、対話制御のモデル化の4点から研究を行った。主な成果は次の通りである。 (1)雑音に強い分析法として、帯域分割分割自己相関分析法を提案し、種々の雑音に有効であることを確かめた。また、この方法をダミ-ヘッドを用いた2入力信号に拡張すると、ロバスト性が向上することを確認した。(板倉) (2)音声の振幅包絡を周波数分析して発話速度を抽出する方法を考案し、日本語と英語の発話速度の変化を定量的に示した。また、日本語のbimoraic foot現象、英語の強勢間の音節の等時性などを明らかにした。(北沢) (3)識別学習と入力音声への適応機能の導入により高精度な音素認識アルゴリズムを確立した。また離散型HMnetを用いた強力な言語モデルの獲得法を提案してその有効性を示した。(牧野) (4)強い言語的制約に頼っていた従来の連続音声認識システムに、文法の学習、未知語処理、認識誤りを含んだ文の意味解釈などの機能を導入して、比較的自由な発話を許すことに成功した。(中川) (5)韻律、分節特徴、音質の柔軟な制御が可能なホルマントテンプレート接続型音声合成方式を提案し、新しく開発したARX音声分析法を用いて抽出した音道及び音源パラメタを用いて、良好な合成音声を得た。(粕谷) (6)対話音声と朗読音声の特徴を比較し、対話音声を合成するための韻律規則を作成した。また、特定のタスクを用いて、対話履歴による省略、焦点の付与の制御を行い、ユーザに分かりやすい応答音声が生成する手法を開発した。(広瀬) (7)音声認識の誤りを考慮し、認識や聞き直しを行う対話制御方式の数学的なモデル化を行い、このような制御方式を採る対話システムの総合的な性能と音声認識システムの性能との間の定量的な関係を導いた。(新美)

Report

(3 results)

Research Products
(19 results)

All Other

All Publications (19 results)

[Publications] Y.Niimi: "Modeling dialogue control strategies to relieve speech recognition errors" Proc. of EUROSPEECH-95. 2. 1177-1180 (1995)
- Related Report
  1995 Annual Research Report
[Publications] S.Kajita: "Robust speech feature extraction using SBCOR analysis" Proc. of ICASSP-95. 1. 421-424 (1995)
- Related Report
  1995 Annual Research Report
[Publications] 粕谷英樹: "音源から見た声質" 日本音響学会誌. 51. 869-875 (1995)
- Related Report
  1995 Annual Research Report
[Publications] S.Kobayashi: "Consistency of inter-transcribers' transcription" Proc. of EUROSPEECH-95. 1263-1266 (1995)
- Related Report
  1995 Annual Research Report
[Publications] K.Hirose: "A method of generating speech reply with elliptical expreeions and prosodic emphases" Proc. ESCA Tutorial and Research Workshop on Spoken Dialogue Systems. 233-236 (1995)
- Related Report
  1995 Annual Research Report
[Publications] 伊藤彰則: "拡張RHA法による連続音声認識のための単語予備選択" 電子情報通信学会論文誌. J-78-D-II. 400-408 (1995)
- Related Report
  1995 Annual Research Report
[Publications] S.Nakagawa: "A comparative study of output probability functions in HMMs" IEICE Trans. Inf. & Syst.E78-D(6). 669-675 (1995)
- Related Report
  1995 Annual Research Report
[Publications] S.Kajita: "Speech analysis and speech recognition using subband-autocorrelation analysis" J.Acoust.Soc.Jpn.(E). 15(5). 329-338 (1994)
- Related Report
  1994 Annual Research Report
[Publications] 石塚正明: "音声合成用全零型有声音源モデル" 音響学会誌. 50. 361-368 (1994)
- Related Report
  1994 Annual Research Report
[Publications] S.Kitazawa: "Tempo estimation by wave envelope for recognition of paralinguistic features in spontaneous speech" Proc.of ICSLP-94. 3. 1691-1694 (1994)
- Related Report
  1994 Annual Research Report
[Publications] Y.Tsurumi: "An unsuperivised speaker adaptation method for continuous parameter HMM by maximum a posteriori probability estimation" Proc.of ICSLP-94. 1. 431-434 (1994)
- Related Report
  1994 Annual Research Report
[Publications] K.Hirose: "Analysis and synthesis of fundamental frequency contours for the spoken dialogue in Japanese" Proc.of ESCA/IEEE Workshop on Speech Synthesis. 167-170 (1994)
- Related Report
  1994 Annual Research Report
[Publications] 牧野正三: "単語の出現確率を用いた単語認識の性能予測" 電子情報通信学会論文誌. J77-D-II. 274-281 (1994)
- Related Report
  1994 Annual Research Report
[Publications] 新美康永: "How might one comfortably converse with a machine?" IEICE Trans.E76-D-1. 9-16 (1993)
- Related Report
  1993 Annual Research Report
[Publications] 粕谷英樹: "Significance of Suitability Assessment in Speech Synthesis Applications" IEICE Trans.E-76-A-11. 1893-1897 (1993)
- Related Report
  1993 Annual Research Report
[Publications] 中川聖一: "ワードスポッティング法を用いた文脈自由文法制御フレーム同期型HMM連続音声認識法" 電子情報通信学会論文誌. J76-D-II-7. 1329-1336 (1993)
- Related Report
  1993 Annual Research Report
[Publications] 中川聖一: "文脈自由文法制御によるOne Pass型HMM連続音声認識法" 電子情報通信学会論文誌. J76-D-II-7. 1337-1345 (1993)
- Related Report
  1993 Annual Research Report
[Publications] 広瀬啓吉: "A Dialogue Processing System for Speech Response with High Adaptability to Dialogue Topics" IEICE Trans.E76-D-1. 95-105 (1993)
- Related Report
  1993 Annual Research Report
[Publications] 牧野正三: "音素・文字間の遷移情報を用いた単語認識の性能予測" 電子情報通信学会論文誌. J76-D-II-6. 1090-1096 (1993)
- Related Report
  1993 Annual Research Report

音声対話における音声の認識と合成に関する研究

Principal Investigator

新美 康永 京都工芸繊維大学, 工芸学部, 教授 (00026030)

¥116,300,000 (Direct Cost: ¥116,300,000)

Report

Research Products

[Publications] Y.Niimi: "Modeling dialogue control strategies to relieve speech recognition errors" Proc. of EUROSPEECH-95. 2. 1177-1180 (1995)

Related Report

[Publications] S.Kajita: "Robust speech feature extraction using SBCOR analysis" Proc. of ICASSP-95. 1. 421-424 (1995)

Related Report

[Publications] 粕谷英樹: "音源から見た声質" 日本音響学会誌. 51. 869-875 (1995)

Related Report

[Publications] S.Kobayashi: "Consistency of inter-transcribers' transcription" Proc. of EUROSPEECH-95. 1263-1266 (1995)

Related Report

[Publications] K.Hirose: "A method of generating speech reply with elliptical expreeions and prosodic emphases" Proc. ESCA Tutorial and Research Workshop on Spoken Dialogue Systems. 233-236 (1995)

Related Report

[Publications] 伊藤彰則: "拡張RHA法による連続音声認識のための単語予備選択" 電子情報通信学会論文誌. J-78-D-II. 400-408 (1995)

Related Report

[Publications] S.Nakagawa: "A comparative study of output probability functions in HMMs" IEICE Trans. Inf. & Syst.E78-D(6). 669-675 (1995)

Related Report

[Publications] S.Kajita: "Speech analysis and speech recognition using subband-autocorrelation analysis" J.Acoust.Soc.Jpn.(E). 15(5). 329-338 (1994)

Related Report

[Publications] 石塚正明: "音声合成用全零型有声音源モデル" 音響学会誌. 50. 361-368 (1994)

Related Report

[Publications] S.Kitazawa: "Tempo estimation by wave envelope for recognition of paralinguistic features in spontaneous speech" Proc.of ICSLP-94. 3. 1691-1694 (1994)

Related Report

[Publications] Y.Tsurumi: "An unsuperivised speaker adaptation method for continuous parameter HMM by maximum a posteriori probability estimation" Proc.of ICSLP-94. 1. 431-434 (1994)

Related Report

[Publications] K.Hirose: "Analysis and synthesis of fundamental frequency contours for the spoken dialogue in Japanese" Proc.of ESCA/IEEE Workshop on Speech Synthesis. 167-170 (1994)

Related Report

[Publications] 牧野正三: "単語の出現確率を用いた単語認識の性能予測" 電子情報通信学会論文誌. J77-D-II. 274-281 (1994)

Related Report

[Publications] 新美 康永: "How might one comfortably converse with a machine?" IEICE Trans.E76-D-1. 9-16 (1993)

Related Report

[Publications] 粕谷 英樹: "Significance of Suitability Assessment in Speech Synthesis Applications" IEICE Trans.E-76-A-11. 1893-1897 (1993)

Related Report

[Publications] 中川 聖一: "ワードスポッティング法を用いた文脈自由文法制御フレーム同期型HMM連続音声認識法" 電子情報通信学会論文誌. J76-D-II-7. 1329-1336 (1993)

Related Report

[Publications] 中川 聖一: "文脈自由文法制御によるOne Pass型HMM連続音声認識法" 電子情報通信学会論文誌. J76-D-II-7. 1337-1345 (1993)

Related Report

[Publications] 広瀬 啓吉: "A Dialogue Processing System for Speech Response with High Adaptability to Dialogue Topics" IEICE Trans.E76-D-1. 95-105 (1993)

Related Report

[Publications] 牧野 正三: "音素・文字間の遷移情報を用いた単語認識の性能予測" 電子情報通信学会論文誌. J76-D-II-6. 1090-1096 (1993)

Related Report

新美康永京都工芸繊維大学, 工芸学部, 教授 (00026030)

[Publications] 新美康永: "How might one comfortably converse with a machine?" IEICE Trans.E76-D-1. 9-16 (1993)

[Publications] 粕谷英樹: "Significance of Suitability Assessment in Speech Synthesis Applications" IEICE Trans.E-76-A-11. 1893-1897 (1993)

[Publications] 中川聖一: "ワードスポッティング法を用いた文脈自由文法制御フレーム同期型HMM連続音声認識法" 電子情報通信学会論文誌. J76-D-II-7. 1329-1336 (1993)

[Publications] 中川聖一: "文脈自由文法制御によるOne Pass型HMM連続音声認識法" 電子情報通信学会論文誌. J76-D-II-7. 1337-1345 (1993)

[Publications] 広瀬啓吉: "A Dialogue Processing System for Speech Response with High Adaptability to Dialogue Topics" IEICE Trans.E76-D-1. 95-105 (1993)

[Publications] 牧野正三: "音素・文字間の遷移情報を用いた単語認識の性能予測" 電子情報通信学会論文誌. J76-D-II-6. 1090-1096 (1993)