研究課題/領域番号 |
20H00602
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 京都大学 |
研究代表者 |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
研究分担者 |
井上 昂治 京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
44,720千円 (直接経費: 34,400千円、間接経費: 10,320千円)
2023年度: 9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円)
2022年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円)
2021年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円)
2020年度: 10,660千円 (直接経費: 8,200千円、間接経費: 2,460千円)
|
キーワード | 音声理解 / 音声対話 / 音声認識 / End-to-Endモデル |
研究開始時の研究の概要 |
人間どうしが行うような音声コミュニケーションにおいて、相手の意図・概念・感情を理解し、応答するためのモデルを研究する。音声から理解さらには相槌生成を行う系と、理解結果に応じて適切な知識・モデルを用いて応答生成を行う系のEnd-to-Endモデル化を行う。これにより、音声認識誤りの影響と音声に含まれるニュアンスや感情などの情報を考慮して、インタラクションを行うシステムを実現する。傾聴・カウンセリングや就職面接などを対象として、モデル化及び対話システムのロボットによる実装を行う。これにより、人間のコミュニケーションスキルの解明と実現を目指す。
|
研究実績の概要 |
End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の観点から各々以下の研究を実施した。 まず、人間どうしの自然な話し言葉音声から、フィラーや言い誤りの削除・句読点や脱落した助詞の挿入・口語的な表現の修正などの適宜必要な編集を行いながら、直接可読性の高い書き言葉スタイルの文を出力するEnd-to-Endモデルを設計・構築した。その際に、音声に忠実な書き起こしを疑似的に復元してEnd-to-Endモデルの学習を補助する手法と、句読点位置を手がかりとした音声区分化手法も併せて提案し、各々の効果を示した。衆議院審議音声を用いた評価実験により、提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に会議録テキストを生成できることを確認した。 次に、ユーザの入力発話からシステムの応答を生成するEnd-to-End(Seq-to-Seq)モデルにおいて、感情認識を統合するとともに、応答から入力発話を復元するモデルも統合学習することで、文脈理解と感情認識を伴った応答生成の実現を図った。感情認識と検索型の応答を組み合わせることで、共感的な対話が実現できることを確認した。 さらに、音声認識モデルにおける自己教師付き学習の導入についても検討し、音声認識と言語認識・ドメイン認識を同時にEnd-to-Endモデルで行い、かつ後者の認識結果を利用することで、音声認識の精度が改善されることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
音声認識・理解及び対話システムにおいて、多面的に研究を実施し、着実に成果を挙げることができた。
|
今後の研究の推進方策 |
要素技術をさらに発展させるとともに、システムとして統合していく。
|