Project/Area Number |
20K19903
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61060:Kansei informatics-related
|
Research Institution | NTT Communication Science Laboratories |
Principal Investigator |
Chiba Yuya 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究員 (30780936)
|
Project Period (FY) |
2020-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2020: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
|
Keywords | 音声対話システム / マルチモーダル情報処理 / 応答生成 / 非言語情報 |
Outline of Research at the Start |
現在利用されている対話システムの多くは音声に大きく依存したインラクションを行っており,会話の文脈に沿って感情や表情を適切に表出することができない.対話システムが社会的な存在となり,ユーザと関係を構築するためには声の調子や表情,ジェスチャを適切に制御することで,人間的なインタラクションを実現できる必要がある.本研究課題では,深層学習に基づく対話システムの応答生成手法を拡張し,発話内容と非言語情報を同時に生成する応答生成モデルを提案する.大規模なマルチモーダル雑談対話コーパスを用いて提案モデルを学習することで,発話内容だけでなく非言語情報に関しても文脈を考慮した応答が可能になると期待される.
|
Outline of Final Research Achievements |
This study constructed a spoken response generation method using linguistic and prosodic information of the user's utterance based on the neural conversational model, which is actively studied for dialogue systems. Our experiments confirmed that the proposed method can produce F0 sequences that are closer to natural speech than the baseline. Then, our research group expanded the spoken response generation model to a multimodal response generation model, that can consider the facial expression control signals. Experimental results suggested that the performance of the model can be improved by considering multimodal information. Additionally, we also proposed a response timing estimation model based on the dialogue context encoder and the continuous LSTM. We have presented six papers at domestic conferences and workshops, four papers at international conferences, and applied for one patent.
|
Academic Significance and Societal Importance of the Research Achievements |
本課題では,近年盛んに研究されているニューラルベースの応答生成技術が言語情報だけでなく韻律や表情といった非言語情報も扱えること,また人間のコミュニケーションにおける社会的な現象を考慮できる可能性があることを示した.加えて,そのような非言語ベースの応答生成において効果的にモデルを学習するためのデータ拡張手法,自然なタイミング・間での応答を実現する応答タイミング推定手法も提案し,それぞれ一定の効果が得られた.これらの検討より,非言語情報を取り入れた対話システムの応答生成研究における有益な知見を提供できたと考える.本研究の成果は今後ますます重要性を増す対話システムの自然性の向上に寄与するものである.
|