1997 Fiscal Year Annual Research Report
日本語および中国語を対象とした音声対話システムの開発
Project/Area Number |
08558028
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 大学院・工学系研究科, 教授 (50111472)
|
Co-Investigator(Kenkyū-buntansha) |
鈴木 敏克 東京電力株式会社, システム研究所, 主任(研究職)
峯松 信明 豊橋技術科学大学, 工学部, 助手 (90273333)
大野 澄雄 東京理科大学, 基礎工学部, 助手 (80256677)
|
Keywords | 音声対話システム / 音声認識 / 音声合成 / 対話処理 / 多言語システム / ビタビベイズ予測分類 / 波形編集合成 / 韻律モデル |
Research Abstract |
本研究は、音声入力、出力に関する制約を緩和したユーザにとって利用し易い音声対話システムを日本語と中国語の両言語に対応したシステムとして試作し、多言語音声対話システムの実用化の可能性を探ることを目的とする。本年度は、音声認識機能の開発・実装、音声合成機能の開発・実装等を中心として以下の成果を達成した。 1.ユーザの音声入力を認識して天気概況データベースにアクセスし、必要な情報を取り出して合成音声として出力する音声対話システムを本研究のプロトタイプシステムとして作成し、その動作を認識した。このシステムでは、適宜、既知情報を応答に含めることを行い、対話の破錠の回避に有効なことを示した。 2.開発環境と使用環境の違いに対して頑健な音声認識手法としてビタビアルゴリズムにもとづくベイズ予測分類法を提案しているが、本年度は、使用環境での学習データを用いて順次により確からしい事後確率密度関数を推定する手法を開発した。従来の手法と比較して、認識率が高く収束が早いという結果を得た。 3.音声出力機能の向上のために、波形編集音声合成を検討した。まず、音声認識技術を利用して、従来のような人手による処理をまったく介さない波形編集音声合成システムを開発した。これにより、特に、中国語の音声合成部の構築がデータベース作成だけで可能となった。次に、素片の接続に際して必要となる基本周波数の変更手法として、正弦波モデルによる周波数次元での手法(SM-PSOLA)を開発し、音質向上が可能なことを示した。 4.波形編集合成との切り替えが可能なフォルマント音声合成システムを完成した。これにより、従来音質の悪かった無声子音で格段の向上が得られた。 5.中国語の韻律モデルを構築し、文音声の基本周波数パターンの分析結果をもとに、中国語音声合成のための韻律規則を作成した。
|
-
[Publications] 江 輝: "Use of less-informative Bayesian predictive classification for noisy speech recognition" Proc.1^<st> China-Japan Workshop on Spoken Language Processing. 169-174 (1997)
-
[Publications] 倪 晋富: "A quantitative model for generating sentence F_0 contours of spoken Chinese" Proc.1^<st> China-Japan Workshop on Spoken Language Processing. 103-110 (1997)
-
[Publications] 江 輝: "Robust speech recognition based on Viterbi Bayesian predictive classification" Proc.IEEE International Conference on Acoustics,Speech,& Signal Processing. 2. 1551-1554 (1997)
-
[Publications] MERON Yoram: "Waveform concatenation speech synthesis using phonetic clustering and automatic unit selection" 日本音響学会平成9年度秋季研究発表会講演論文集. I. 263-264 (1997)
-
[Publications] 関 慶強: "Use of recurrent neural network for unknown language rejection in language identification system" Proc.5th European Conference on Speech Communication and Technology. 1. 63-66 (1997)
-
[Publications] 倪 晋富: "Quantitative analysis and formulation of tone concatenation in Chinese F_0 contours" proc.5th European Conference on Speech Communication and Technology. 1. 195-198 (1997)
-
[Publications] 江 輝: "Sequential Bayesian learning of CDHMM based on finite mixture approximation of its prior/posterior density" Proc.IEEE Automatic Speech Recognition Workshop. 373-380 (1997)
-
[Publications] MERON Yoram: "Waveform concatenation speech synthesis using phonetic clustering and sinusoidal modeling" 電子情報通信学会技術研究報告(音声研究会). 49-56 (1998)
-
[Publications] 川波弘道: "対話音声における発話速度の分析と韻律規則の作成" 日本音響学会講演論文集. (発表予定). (1998)
-
[Publications] 長谷川澄志: "柔軟な構成のターミナルアナログ音声合成システムとそれによる音声合成実験" 日本音響学会講演論文集. (発表予定). (1998)
-
[Publications] 江 輝: "Improving Viterbi Bayesian predictive classifiation via sequential Bayesian learning in robust speech recognition" Proc.IEEE International Conference on Acoustics,Speech,& Signal Processing. (発表予定). (1998)
-
[Publications] 広瀬啓吉: "対話音声の生成(「音声による人間と機械の対話」の第4章)" オーム社, 375(14) (1998)