Project/Area Number |
20K19821
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Kyoto University |
Principal Investigator |
Inoue Koji 京都大学, 情報学研究科, 助教 (10838684)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 音声対話システム / 会話ロボット / ターンテイキング / 発話権取得 / 話者交替 / 対話 / 意図理解 / 多人数対話 / 笑い / 言語理解 / 応答生成 / 対話理解 |
Outline of Research at the Start |
音声対話システムにおいてユーザの発話終了を検出するターンテイキング予測は、円滑な対話を実現するための重要な機能である。従来のターンテイキングの予測モデルは先行するユーザ発話の情報のみを扱っていたが、人間どうしの会話ではより多面的な情報が考慮されているといえる。そこで、従来の音声対話システムでは独立に動作していた対話理解と発話生成のモジュールに関して、これらの動作と連動してターンテイキングを予測するシステムを提案する。さらに、これら複数のモジュールのモデルを同時に学習する統合的なモデルの構築にも取り組む。また、提案する予測モデルを音声対話システムへ搭載して、被験者実験によりその有用性を確認する。
|
Outline of Final Research Achievements |
A novel model for turn-taking, predicting the right to speak in spoken dialogue systems, has been pioneered. To mirror human turn-taking, annotations were applied to discern the 'intent' and 'content' of each utterance within a dialogue dataset. Subsequently, a two-step turn-taking prediction model was developed. It first determines if the 'intent' or 'content' is intelligible and then decides whether to take the turn. Additionally, to enhance the functionality of spoken dialogue systems, the generation of shared laughter has been realized. A system composed of three modules for laughter detection, shared laughter prediction, and laughter type selection was proposed, demonstrating its efficacy.
|
Academic Significance and Societal Importance of the Research Achievements |
音声対話システムは、会話ロボットやスマートスピーカに展開されている。しかし、これらのシステムによるやりとりは機械的であると言わざるを得ない。その要因の一つとしてターンテイキングが挙げられる。現在のシステムでは、発話権を取得するに際して、不自然に長い間や割り込みが生じることが多く、これにより対話の円滑さを低下させている。その一方で、人間どうしの対話では、特に意識することなく、円滑なターンテイキングが実現されている。本研究により、人間どうしのターンテイキングのメカニズムの解明に向けて、構成論的な一つのアプローチを示すことができた。
|