Project/Area Number |
20H00602
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Kyoto University |
Principal Investigator |
|
Co-Investigator(Kenkyū-buntansha) |
井上 昂治 京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥44,720,000 (Direct Cost: ¥34,400,000、Indirect Cost: ¥10,320,000)
Fiscal Year 2023: ¥9,620,000 (Direct Cost: ¥7,400,000、Indirect Cost: ¥2,220,000)
Fiscal Year 2022: ¥12,220,000 (Direct Cost: ¥9,400,000、Indirect Cost: ¥2,820,000)
Fiscal Year 2021: ¥12,220,000 (Direct Cost: ¥9,400,000、Indirect Cost: ¥2,820,000)
Fiscal Year 2020: ¥10,660,000 (Direct Cost: ¥8,200,000、Indirect Cost: ¥2,460,000)
|
Keywords | 音声理解 / 音声対話 / 音声認識 / End-to-Endモデル |
Outline of Research at the Start |
人間どうしが行うような音声コミュニケーションにおいて、相手の意図・概念・感情を理解し、応答するためのモデルを研究する。音声から理解さらには相槌生成を行う系と、理解結果に応じて適切な知識・モデルを用いて応答生成を行う系のEnd-to-Endモデル化を行う。これにより、音声認識誤りの影響と音声に含まれるニュアンスや感情などの情報を考慮して、インタラクションを行うシステムを実現する。傾聴・カウンセリングや就職面接などを対象として、モデル化及び対話システムのロボットによる実装を行う。これにより、人間のコミュニケーションスキルの解明と実現を目指す。
|
Outline of Final Research Achievements |
For general-purpose speech understanding and dialogue based on the end-to-end models, various studies were conducted from the perspective of advanced speech recognition and dialogue generation. First, we designed and implemented an end-to-end system that directly recognizes dialogue acts and emotions from speech. Next, we proposed an effective learning method for speech recognition of low-resource languages by integrating speaker, language and domain recognition. We also built a model for generating punctuated and cleaned text directly from speech. Furthermore, we studied how to integrate emotion recognition with speech and gender recognition for effective learning. With regard to dialogue generation, end-to-end models represented by the large-scale language models have become the mainstream, and we proposed a mechanism to reason the user's intention and emotion and the system's intention and emotion before response generation.
|
Academic Significance and Societal Importance of the Research Achievements |
音声認識はend-to-endモデルを大規模なデータで学習することで、大きな性能の向上を実現したが、少資源言語の音声認識や感情認識の性能はまだ十分でない。これに対して、様々な音声の属性を統合することで、大きな改善が得られることを示した。 対話生成においても大規模言語モデルが隆盛を極めているが、ロボットなどに実装する際には意図や感情などの内部状態のモデルを構築・学習することで、共感的・共生的なシステムの実現につながることが期待される。
|