2022 Fiscal Year Annual Research Report
End-to-End Model for Task-Independent Speech Understanding and Dialogue
Project/Area Number |
20H00602
|
Research Institution | Kyoto University |
Principal Investigator |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
Co-Investigator(Kenkyū-buntansha) |
井上 昂治 京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 音声理解 / 音声対話 / 音声認識 / End-to-Endモデル |
Outline of Annual Research Achievements |
End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の観点から各々以下の研究を実施した。 まず、人間どうしの自然な話し言葉音声から、フィラーや言い誤りの削除・句読点や脱落した助詞の挿入・口語的な表現の修正などの適宜必要な編集を行いながら、直接可読性の高い書き言葉スタイルの文を出力するEnd-to-Endモデルを設計・構築した。その際に、音声に忠実な書き起こしを疑似的に復元してEnd-to-Endモデルの学習を補助する手法と、句読点位置を手がかりとした音声区分化手法も併せて提案し、各々の効果を示した。衆議院審議音声を用いた評価実験により、提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に会議録テキストを生成できることを確認した。 次に、ユーザの入力発話からシステムの応答を生成するEnd-to-End(Seq-to-Seq)モデルにおいて、感情認識を統合するとともに、応答から入力発話を復元するモデルも統合学習することで、文脈理解と感情認識を伴った応答生成の実現を図った。感情認識と検索型の応答を組み合わせることで、共感的な対話が実現できることを確認した。 さらに、音声認識モデルにおける自己教師付き学習の導入についても検討し、音声認識と言語認識・ドメイン認識を同時にEnd-to-Endモデルで行い、かつ後者の認識結果を利用することで、音声認識の精度が改善されることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
音声認識・理解及び対話システムにおいて、多面的に研究を実施し、着実に成果を挙げることができた。
|
Strategy for Future Research Activity |
要素技術をさらに発展させるとともに、システムとして統合していく。
|
Research Products
(12 results)