研究課題/領域番号 |
20H00602
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 京都大学 |
研究代表者 |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
研究分担者 |
井上 昂治 京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
44,720千円 (直接経費: 34,400千円、間接経費: 10,320千円)
2023年度: 9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円)
2022年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円)
2021年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円)
2020年度: 10,660千円 (直接経費: 8,200千円、間接経費: 2,460千円)
|
キーワード | 音声理解 / 音声対話 / 音声認識 / End-to-Endモデル |
研究開始時の研究の概要 |
人間どうしが行うような音声コミュニケーションにおいて、相手の意図・概念・感情を理解し、応答するためのモデルを研究する。音声から理解さらには相槌生成を行う系と、理解結果に応じて適切な知識・モデルを用いて応答生成を行う系のEnd-to-Endモデル化を行う。これにより、音声認識誤りの影響と音声に含まれるニュアンスや感情などの情報を考慮して、インタラクションを行うシステムを実現する。傾聴・カウンセリングや就職面接などを対象として、モデル化及び対話システムのロボットによる実装を行う。これにより、人間のコミュニケーションスキルの解明と実現を目指す。
|
研究実績の概要 |
End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の観点から各々以下の研究を実施した。 まず、音声から言語情報の認識(通常の音声認識)と感情情報の認識、及び話者情報の認識を行うシステムを設計・実装した。これらの属性は相補的な関係もある(例えば、言語情報や性別の情報により感情の認識も容易になる)反面、有用な特徴が直交する(例えば、音声認識は話者に独立な情報を抽出する)側面もある。近年注目を集めている自己教師付き学習に基づいて事前学習されたモデルをファインチューニングする枠組みにおいて、各々の属性について段階的にファインチューニングすることで、高精度な認識システムを構築することができた。感情認識の標準的なベンチマークで最高水準の性能を達成した。 次に、対話生成においては、大規模言語モデルに代表されるように、ユーザの入力発話からシステムの出力発話を直接End-to-Endに変換するモデルが主流となっているが、対話における意図や感情の推論は行われていない。これに対して、ユーザの意図と感情を推論するネットワークに加えて、システムの意図や感情をを推論する機構を導入した枠組みを提案した。これにより、より多様で共感的な応答が生成されることを示した。 また、音声強調(雑音抑圧)と音声認識のEnd-to-End処理系についても研究を行い、パワースペクトル次元の強調の情報を音声認識のエンコーダに渡すことにより、音声認識の頑健性・性能が向上することを示した。
|
現在までの達成度 (段落) |
令和5年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和5年度が最終年度であるため、記入しない。
|