研究課題/領域番号 |
22KJ0198
|
補助金の研究課題番号 |
21J22383 (2021-2022)
|
研究種目 |
特別研究員奨励費
|
配分区分 | 基金 (2023) 補助金 (2021-2022) |
応募区分 | 国内 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東北大学 |
研究代表者 |
佐藤 志貴 東北大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2023-03-08 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
2,200千円 (直接経費: 2,200千円)
2023年度: 700千円 (直接経費: 700千円)
2022年度: 700千円 (直接経費: 700千円)
2021年度: 800千円 (直接経費: 800千円)
|
キーワード | 自然言語処理 / 計算言語学 / 対話システム / 自動評価 |
研究開始時の研究の概要 |
近年の高性能な対話システムが生成する応答であっても、過去の発言との矛盾を含むなど、さまざまな誤りが報告されている。しかし、対話システムがどのような誤りを含む応答をする傾向にあるか自動評価する枠組みは確立されておらず、効率的なシステム改良を困難なものにしている。 本研究では、誤りの内容が付与された誤答選択肢を有する対話応答選択(与えられた対話に続く適切な応答を選ぶ選択問題)を対話システムに解かせることで、誤答傾向からシステムの誤り傾向を自動で評価・分析する枠組みを構築する。
|
研究実績の概要 |
本研究では,対話応答選択タスク(文脈に続く適切な発話を選択肢から選ぶ選択問題を解かせ対話システムを評価するタスク)の選択肢に含まれる各誤り候補に対し誤り種類ラベルを付与することで,選択誤りの傾向から対話システムを誤り種類ごとに自動分析できる枠組みを構築する.ここで,文脈は現在行っている対話内のやりとりである短期的文脈と,過去行われた別の対話のやりとりである長期的文脈の二つが存在する.本年度から,長期的文脈を有する対話の選択問題の構築と,誤り候補に対する誤り種類ラベル付与に取り組み始めた. まず,長期的文脈を有する対話の収集に取り掛かった.長期的文脈を持つ対話データは分野では少数しか収集されていない.そこで,ターン数の多い対話から擬似的に長期的文脈と短期的文脈の対を作成する方法を提案し,提案方法により高品質な長期的文脈付き対話を収集した. 次に,選択問題の選択肢の収集に取り掛かった.1年目の取り組みで,誤り種類のうち矛盾(文脈と相反する内容の発話を生成してしまう誤り)については,事前に収集した誤り候補に対するラベリングにより用意した選択肢を用いたとしても,対話応答選択の枠組みでシステムの応答生成傾向が適切に評価できないことがわかっている.そこで,矛盾に関しては1年目での短期的文脈のみ有する対話に対する取り組みと同様に,対話システムにより実際に生成される矛盾応答を収集することとした.具体的には,1年目で確立した,(i) 対話システムが矛盾を生成しやすい文脈の特定方法, (ii) 矛盾の効率的な収集方法を組み合わせて長期的文脈部分に矛盾するシステム発話を収集する.現時点で,収集のためのフレームワークの構築と,小規模な予備収集実験が完了している.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の予定では長期的文脈を持たない対話について先にラベル付与を実施する予定であった一方で,今年度は以上で述べたように,先に長期的文脈を持つ対話に関するラベル付与準備に取り組むこととした.これは,長期的文脈を持つ対話,持たない対話両方同時にラベル付与を実施することによってより作業を効率化するためである. 取り組みの順番こそ当初の計画とは異なるが,長期的文脈を持つ対話に関しては先述の方法により高品質なものが収集できるなど,最終的な評価の枠組みの構築に向け順調に研究は進行しているといえる.
|
今後の研究の推進方策 |
矛盾を含む候補の収集を完了した後は,長期的文脈を持つ対話について,短期的文脈のみ持つ対話に対して実施した際と同様に,他の誤り種類についてのラベル付与対象となる誤り候補の収集を行う.そのうえで,長期的文脈を持つ対話,持たない対話それぞれについて誤り候補への大規模ラベル付与を実施する予定である.
|