研究課題/領域番号 |
20H00602
|
研究機関 | 京都大学 |
研究代表者 |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
研究分担者 |
井上 昂治 京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 音声理解 / 音声対話 / 音声認識 / End-to-Endモデル |
研究実績の概要 |
人間どうしが行うような音声コミュニケーションにおいて、相手の意図・概念・感情を理解し、応答するためのモデルを研究した。 まず、音声から相手の発話行為(意図)を直接推定するEnd-to-Endモデルを構築した。これは、単語列(文)を再帰型ニューラルネットワークでエンコードして発話行為を推定するニューラルネットワークを、単語を出力単位とする音声認識のネットワークに直接結合し、統合学習することで実現した。本モデルが、音声認識誤りに頑健に機能し、従来手法に比べて高い精度を実現することを示した。 次に、音声から感情を直接推定するEnd-to-Endモデルを構築した。これは上記と同様に構成できるが、音声から単語列を介さずに直接感情を推定するモデルと並列に構成した。本モデルも、音声認識誤りに頑健に機能し、他の手法に比べて高い精度を実現することを示した。 さらに、対話において話題となる概念を抽出し、話題が整合するような応答を生成する機構をSeq-to-Seqモデルで実現した。文脈からBERTベースで話題語らしさを算出し、それが高い単語の埋め込み表現を応答生成の条件付けに利用するものである。本手法により生成される応答が、話題の整合性のとれた実質的なものであることを確認した。 また、ユーザの質問に直接回答できない場合にも、質問されている概念を推定した上で、それについてユーザに聞き返す応答を生成する機構もSeq-to-Seqモデルで実現した。 これらの基盤となるEnd-to-Endモデルに基づく音声認識についても、言語モデルの知識蒸留による高度化と効率的なストリーム型の実装について研究を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
各研究テーマにおいてメジャーな国際会議で論文発表することができた。
|
今後の研究の推進方策 |
ロボットによる音声対話システムに順次実装を行っていく。
|