1998 Fiscal Year Annual Research Report
日本語および中国語を対称とした音声対話システムの開発
Project/Area Number |
08558028
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 大学院・工学系研究科, 教授 (50111472)
|
Co-Investigator(Kenkyū-buntansha) |
小杉 康宏 東京電力株式会社, システム研究所, 主任研究職員
峯松 信明 豊橋技術科学大学, 工学部, 助手 (90273333)
大野 澄雄 東京理科大学, 基礎工学部, 助手 (80256677)
|
Keywords | 音声対話システム / 音声認識 / 音声合成 / 多言語システム / ビタビ探索 / TD-PSOLA / 韻律モデル / 声調認識 |
Research Abstract |
本研究は、音声入力、出力に関する制約を緩和したユーザが利用し易い音声対話システムを日本語と中国語の両言語に対応したシステムとして試作し、多言語音声対話システムの実用化の可能性を探ることを目的とする。本年度は、音声対話システムの作成と評価を中心として以下の成果を達成した。 1. 頑健な音声認識手法としてのMinimax法にビタビ探索を導入することで、最適経路の反復探索を効率的に行うアルゴリズムを開発し、連続音声への拡張が可能であることを示した。白色雑音付加の連続数字音声の認識実験でPlag-in MAP等のその他の手法に対する優位性を示した。 2. 波形接続型音声合成(TD-PSOLA)について、ピッチマークの自動付与手法を開発するとともに、部分的零位相化により、ピッチ変更の際に問題となるエコー性ノイズを低減する手法を検討した。 3. 中国語音声の基本周波数パターンの形状を統一的に表現する関数を定義し、それにもとづいて合成に適した中国語韻律モデルを構築した。 4. 中国語声調認識において、音節の声調核(母音核に対応)のみの特徴を見ることによってTone Sandhiの影響を軽減する手法を開発し、連続音声で、80%の声調認識率を達成した。また、先行音節と後続音節の当該音節への影響を個別に見ることにより、Tone Sandhiの明解な規則化が可能なことを示した。 5. 文献検索をタスクとし、音声認識部、対話管理部、検索部、音声合成部からなる日本語・中国語音声対話システムを作成した。中国語については研究上の制約から定形文を出力したが、日本語については対話管理部での応答文生成に際し、既知情報を表層文に含めることの検討を行った。システムを試用し、システム主導で、情報をある程度補完した応答が好まれるとの結果を得た。システムはプロトタイプであるが、日本語、中国語における動作を確認し、所期の目標を達成した。
|
-
[Publications] Keikichi Hirose: "Accent type recognition and syntactic boundary detection of Japanese using statistical modeling of moraic transitions of fundamental frequency contours" Proc.IEEE International Conference on Acoustics,Speech,& Signal Processing. 1. 25-28 (1998)
-
[Publications] 岩野公司: "モーラ遷移確率モデルを用いたアクセント型の識別とによるアクセント句境界の検出" 電子情報通信学会技術研究報告(音声研究会). 1-8 (1998)
-
[Publications] 広瀬啓吉: "韻律情報の処理" 信号処理. 2・6. 415-423 (1998)
-
[Publications] Koji Iwano: "Representing prosodic words using statistical models of moraic transition of fundamental frequency contours of Japanese" Proc.International Conference on Spoken Language Processing. 3. 599-602 (1998)
-
[Publications] Jin-song Zhang: "A robust tone recognition method of Chinese based on sub-syllabic F0 contours" Proc.International Conference on Spoken Language Processing. 3. 703-706 (1998)
-
[Publications] Keikichi Hirose: "On the relationship of speech rates with prosodic units in dialogue speech" Proc.International Conference on Spoken Language Processing. 5. 1979-1982 (1998)
-
[Publications] Jinfu Ni: "A Synthesis-oriented model of phrasal pitch movements in standard Chinese" Proc.International Conference on Spoken Language Processing. 7. 3317-3320 (1998)
-
[Publications] 岩野公司: "モーラ遷移確率モデルによるアクセント句境界検出と連続音声認識への応用" 情報処理学会研究報告(音声言語情報処理研究会). 73-78 (1999)
-
[Publications] Jin-song Zhang: "Modeling contextual tone variations in F0 contour for Chinese tone recognition" 日本音響学会研究発表会講演論文集. I(発表予定). (1999)
-
[Publications] Jin-song Zhang: "Lexical tone recognition based on tone-critical segment" 日本音響学会研究発表会講演論文集. I(発表予定). (1999)
-
[Publications] Jinfu Ni: "Formulation of Chinese pitch phenomena using a tuning scheme" 日本音響学会研究発表会講演論文集. I(発表予定). (1999)
-
[Publications] 桐山伸也: "文献検索をタスクとした音声対話システムの検討" 日本音響学会研究発表会講演論文集. I(発表予定). (1999)
-
[Publications] 村松茂樹: "波形編集型音声合成におけるエコー抑制の検討" 日本音響学会研究発表会講演論文集. I(発表予定). (1999)
-
[Publications] 岩野公司: "句境界情報を利用した語彙制約のない姓名認識" 日本音響学会研究発表会講演論文集. I(発表予定). (1999)
-
[Publications] Koji Iwano: "Prosodic word boundary detection using statistical modeling of moraic fundamental frequency contours and its use for continuous speech recognition" Proc.IEEE International Conference on Acoustics,Speech,& Signal Processing. 1(発表予定). (1999)
-
[Publications] 岩野公司: "モーラを単位とした基本周波数パターンの確率モデル化とそれによるアクセント句境界の検出" 情報処理学会論文誌. 40・4(発表予定). (1999)