研究課題/領域番号 |
20H00602
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 京都大学 |
研究代表者 |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
研究分担者 |
井上 昂治 京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
44,720千円 (直接経費: 34,400千円、間接経費: 10,320千円)
2023年度: 9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円)
2022年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円)
2021年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円)
2020年度: 10,660千円 (直接経費: 8,200千円、間接経費: 2,460千円)
|
キーワード | 音声理解 / 音声対話 / 音声認識 / End-to-Endモデル |
研究開始時の研究の概要 |
人間どうしが行うような音声コミュニケーションにおいて、相手の意図・概念・感情を理解し、応答するためのモデルを研究する。音声から理解さらには相槌生成を行う系と、理解結果に応じて適切な知識・モデルを用いて応答生成を行う系のEnd-to-Endモデル化を行う。これにより、音声認識誤りの影響と音声に含まれるニュアンスや感情などの情報を考慮して、インタラクションを行うシステムを実現する。傾聴・カウンセリングや就職面接などを対象として、モデル化及び対話システムのロボットによる実装を行う。これにより、人間のコミュニケーションスキルの解明と実現を目指す。
|
研究成果の概要 |
End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の高度化の観点から、様々な研究を実施した。まず、音声から発話行為や感情を直接認識するEnd-to-End処理系を設計・実装した。次に、少資源言語の音声認識のために、話者認識や言語認識・ドメイン認識を統合し、効果的に学習を行う方法を提案した。また、音声から句読点付きテキストや整形テキストを直接生成するモデルも構築した。さらに、感情認識と音声認識・性別認識を統合し、効果的に学習を方法を研究した。対話生成についても、ユーザの意図や感情に加えて、システムの意図や感情を推論する機構を提案した。
|
研究成果の学術的意義や社会的意義 |
音声認識はend-to-endモデルを大規模なデータで学習することで、大きな性能の向上を実現したが、少資源言語の音声認識や感情認識の性能はまだ十分でない。これに対して、様々な音声の属性を統合することで、大きな改善が得られることを示した。 対話生成においても大規模言語モデルが隆盛を極めているが、ロボットなどに実装する際には意図や感情などの内部状態のモデルを構築・学習することで、共感的・共生的なシステムの実現につながることが期待される。
|