本研究では,対話応答選択タスク(文脈に続く適切な発話を選択肢から選ぶ選択問題を解かせ対話システムを評価するタスク)の選択肢に含まれる各誤り候補に対し誤り種類ラベルを付与することで,選択誤りの傾向から対話システムを誤り種類ごとに自動分析できる枠組みを構築する.なお,対話における文脈は,現在行っている対話内のやりとりである短期的文脈と,過去行われた別の対話のやりとりである長期的文脈の二つが存在する. 本研究の遂行にあたり解決すべき課題は(1)選択問題を作成するための対話文脈の収集と(2)誤り候補および誤り種類ラベルの収集の二つとなる. (1)について,特に長期的文脈を持つ対話データは分野では少数しか収集されていなかったが,一,二年目の取り組みにより擬似的な長期的文脈を持つ対話文脈の自動収集に成功した. (2)について,大規模言語モデルに係る技術の発達により従来の対話システムにおける多くの誤りが解消されつつあることを踏まえ,これら大規模言語モデルでも抑制が困難な矛盾(文脈と相反する内容の発話を生成してしまう誤り)を含む候補の収集に注力した.一年目の取り組みにより,矛盾に関しては事前に収集した誤り候補に対するラベリングにより用意した選択肢を用いても応答選択の枠組みでシステムの発話生成傾向が評価できないことがわかった.そこで,事前収集した候補ではなく,実際にシステムが生成した矛盾発話を誤り選択肢として用いる評価の枠組みを考案した.そのうえで,二,三年目では評価に必要となる大規模システム矛盾発話データセットを構築した. 以上のように,大規模言語モデルの発達に鑑み一部アプローチは変更となったものの,これら大規模言語モデルの高性能化にもかかわらず未解決となっている矛盾に関して誤り発話の大規模収集に成功するなど,対話応答選択を用いた対話システムの自動評価の実現に向けた重要課題を達成することができた.
|