Spoken dialog system based on real-time control of dialogue tempo for smooth dialog
Project/Area Number |
19K04311
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 20020:Robotics and intelligent system-related
|
Research Institution | The University of Tokushima |
Principal Investigator |
NISHIMURA Ryota 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)
|
Co-Investigator(Kenkyū-buntansha) |
山本 一公 中部大学, 工学部, 教授 (40324230)
西崎 博光 山梨大学, 大学院総合研究部, 教授 (40362082)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2019: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 音声対話システム / タイミング / テンポ / 音声言語情報処理 / 深層学習 / 音声認識 / リアルタイム制御 / ROS / 対話テンポ / 自然な対話 |
Outline of Research at the Start |
本研究は,これからの進んだ人工知能,ロボット,IoTの広く普及する社会で,人間とシステムがより円滑にコミュニケーションを図るために必須となる,対話のテンポの改善を目指すものである.このために,本研究ではテンポの制御が可能な音声対話システムを設計・構築し,テンポ制御モデルを構築する.人間同士の対話を正解データとして用い,機械学習によりテンポ生成モデルを構築し,これを音声対話システムに導入する.これまでに,円滑な対話を実現したシステムは前例が無く,研究としても意義がある. 本研究の成果によって,ストレスのない対話が可能な音声対話システムを,既存ロボットシステムなどに簡単に導入することが可能となる.
|
Outline of Final Research Achievements |
In this research, "construction of a real-time controllable spoken dialog system" was conducted. This system uses ROS architecture, which enables efficient communication management and debugging during system development. We also built the "back-channel timing control module," which is a response timing control module for use in this system. To achieve real-time operation, only simple acoustic information is used. The model is a simple LSTM model. This model is capable of generating the timing of the back-channel with an F-value as high as 0.933. The model is open-sourced on github and widely available to the public.
|
Academic Significance and Societal Importance of the Research Achievements |
最近のChatGPTなどの大規模言語モデルの高精度化に伴い,音声対話システムに対しても,より高精度で自然な対話が期待され始めた.そして,自然に対話を行うためには対話のテンポが非常に重要であるものの,これまでの音声対話システムでは,設計上の問題で実現不可能であった. 本研究の成果により,この問題が解決され,リアルタイムに制御が可能な音声対話システムを開発・動作させることが可能となる.高速に動作可能な相槌応答タイミング生成モデルも構築し,本システムに搭載したことから,音声対話システム開発者は,応答内容やその他の部分に注力してシステム開発することで,自然な音声対話システムを実現できる.
|
Report
(5 results)
Research Products
(28 results)
-
-
-
-
-
-
-
-
-
-
-
[Presentation] EMOtive A.I. "Saya"2022
Author(s)
大須賀晋, 田中五大, 鍋倉彩那, 中野涼太, 渡邊凌太, 石川友香, 石川晃之, 中村晃一, 藤井裕也, 堀内颯太, 東中竜一郎, 西村良太, 太田健吾, 北岡教英
Organizer
人工知能学会研究会資料 言語・音声理解と対話処理研究会
Related Report
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-