研究課題/領域番号 |
22KJ0198
|
補助金の研究課題番号 |
21J22383 (2021-2022)
|
研究種目 |
特別研究員奨励費
|
配分区分 | 基金 (2023) 補助金 (2021-2022) |
応募区分 | 国内 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東北大学 |
研究代表者 |
佐藤 志貴 東北大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2023-03-08 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
2,200千円 (直接経費: 2,200千円)
2023年度: 700千円 (直接経費: 700千円)
2022年度: 700千円 (直接経費: 700千円)
2021年度: 800千円 (直接経費: 800千円)
|
キーワード | 自然言語処理 / 計算言語学 / 対話システム / 自動評価 |
研究開始時の研究の概要 |
近年の高性能な対話システムが生成する応答であっても、過去の発言との矛盾を含むなど、さまざまな誤りが報告されている。しかし、対話システムがどのような誤りを含む応答をする傾向にあるか自動評価する枠組みは確立されておらず、効率的なシステム改良を困難なものにしている。 本研究では、誤りの内容が付与された誤答選択肢を有する対話応答選択(与えられた対話に続く適切な応答を選ぶ選択問題)を対話システムに解かせることで、誤答傾向からシステムの誤り傾向を自動で評価・分析する枠組みを構築する。
|
研究実績の概要 |
本研究では,対話応答選択タスク(文脈に続く適切な発話を選択肢から選ぶ選択問題を解かせ対話システムを評価するタスク)の選択肢に含まれる各誤り候補に対し誤り種類ラベルを付与することで,選択誤りの傾向から対話システムを誤り種類ごとに自動分析できる枠組みを構築する.なお,対話における文脈は,現在行っている対話内のやりとりである短期的文脈と,過去行われた別の対話のやりとりである長期的文脈の二つが存在する. 本研究の遂行にあたり解決すべき課題は(1)選択問題を作成するための対話文脈の収集と(2)誤り候補および誤り種類ラベルの収集の二つとなる. (1)について,特に長期的文脈を持つ対話データは分野では少数しか収集されていなかったが,一,二年目の取り組みにより擬似的な長期的文脈を持つ対話文脈の自動収集に成功した. (2)について,大規模言語モデルに係る技術の発達により従来の対話システムにおける多くの誤りが解消されつつあることを踏まえ,これら大規模言語モデルでも抑制が困難な矛盾(文脈と相反する内容の発話を生成してしまう誤り)を含む候補の収集に注力した.一年目の取り組みにより,矛盾に関しては事前に収集した誤り候補に対するラベリングにより用意した選択肢を用いても応答選択の枠組みでシステムの発話生成傾向が評価できないことがわかった.そこで,事前収集した候補ではなく,実際にシステムが生成した矛盾発話を誤り選択肢として用いる評価の枠組みを考案した.そのうえで,二,三年目では評価に必要となる大規模システム矛盾発話データセットを構築した. 以上のように,大規模言語モデルの発達に鑑み一部アプローチは変更となったものの,これら大規模言語モデルの高性能化にもかかわらず未解決となっている矛盾に関して誤り発話の大規模収集に成功するなど,対話応答選択を用いた対話システムの自動評価の実現に向けた重要課題を達成することができた.
|