研究課題/領域番号 |
18K11435
|
研究機関 | 大阪大学 |
研究代表者 |
荒瀬 由紀 大阪大学, 情報科学研究科, 准教授 (00747165)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 対話システム / 対話破綻検出 / スタイル変換 |
研究実績の概要 |
発話・応答をテキストとして提供する対話データの不足が、雑談対話システムを研究開発する上で大きな障壁となっている。そこで本研究では大規模対話データ構築と、構築したデータを用いた雑談対話システムの構築に取り組む。 本年は対話データの品質推定のため、対話を破綻させる要因となる応答の検出に取り組んだ。対話破綻検出チャレンジにて公開されているアノテーションデータを利用し、入力された発話・応答ペアが破綻しているかどうか分類する分類器を訓練する。 発話・応答ペアの観察により、対話を破綻させる応答の特徴として、応答文内において不自然な単語の組み合わせが用いられるなど局所的な問題があること、発話の文脈に対する一貫性・整合性が欠如していることが明らかとなった。そこで、局所的な特徴の検出に強い Convolutional neural network (CNN)、系列を考慮することで文脈を考慮した文のベクトル化に効果的な Long short-term memoryを用いたRecurrent neural network (RNN) をそれぞれ訓練した。これらCNN・RNNモデルをアンサンブルすることで高精度な対話破綻検出を可能とした。本研究の成果は自然言語処理分野の主要国際論文誌であるComputer Speech & Languageにて発表している。 さらに、発話と応答のスタイルの違いが破綻につながる場合もある。例えばTwitterのような口語が主流の対話では文法的な崩れは許容されるが、フォーマルな文体が好まれる対話では文法的な崩れは破綻の要因となる。そこでテキストのスタイルを自動的に変換するスタイル変換技術についても検討を行っている。基礎的なモデルは国内研究会において発表しており、奨励賞を受賞している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究で構築する対話データの品質を保証するため、(1) 対話を破綻させる要因となる応答の検出、および (2) 適切なスタイルに発話・応答テキストを変換するスタイル変換に取り組んだ。 (1) の対話破綻検出技術について、対話破綻検出チャレンジにて公開されているアノテーションデータを利用し、入力された発話・応答ペアが破綻しているかどうか分類する分類器を実現した。発話・応答ペアの観察により、対話を破綻させる応答の特徴として、応答文内において不自然な単語の組み合わせが用いられるなど局所的な問題があること、発話の文脈に対する一貫性・整合性が欠如していることが明らかとなった。そこで、局所的な特徴の検出に強い Convolutional neural network (CNN)、系列を考慮することで文脈を考慮した文のベクトル化に効果的な Recurrent neural network (RNN) をそれぞれ訓練した。これらCNN・RNNモデルをアンサンブルすることで高精度な対話破綻検出を可能とした。 応答文の局所的特徴に加えて発話文を文脈として考慮することで、高い検出性能を達成できており、その成果は自然言語処理分野の主要国際論文誌であるComputer Speech & Languageにて発表している。 (2) のスタイル変換技術についても検討を開始している。有望な実験結果をえており、国内研究会において発表し、奨励賞を受賞している。
|
今後の研究の推進方策 |
今後は、大規模な対話データ構築のため、疑似発話・応答ペアの生成に取り組む。これまで収集した対話データについて、それぞれの発話・応答のパラフレーズを生成することで、対話データの拡張を行う。パラフレーズ生成は単一言語内での翻訳問題と捉えられるため、ニューラル機械翻訳技術を応用する予定である。 また構築した対話データを用いた対話システムの開発に取り組む。既存の深層学習を用いた対話システムでは、「いいですね」のような、汎用的ではあるがユーザにとって情報量が少なく、面白みがない応答を頻繁に生成するという問題がある。このような応答は対話システムに対するユーザの印象に悪影響を及ぼし、対話システムの継続利用を阻害する要因となる。 対話システムとユーザの対話が継続するには、ある発話に対する文脈的な一貫性に加え、応答の多様性が重要である。多様性を持たせることで、ユーザにとって情報量の多い、妥当な応答を返すことが可能となる。そこで、深層学習を用いた対話システムにおける応答の多様性改善に取り組む。
|
次年度使用額が生じた理由 |
本研究ではユーザと継続して対話を行える高度な対話能力を備えた雑談対話システムを実現するため、大規模対話データ構築と、構築したデータを用いた対話システムの構築に取り組んでいる。今年度は対話システム構築に必須となる対話データの構築、特に対話データの品質推定に取り組んだ。ユーザと対話システムとの対話を破綻させる要因となる応答を自動的に検出するため、深層学習を用いて応答が対話破綻につながるものかどうかを分類する分類器を構築した。研究遂行に注力するため、研究に必須である計算機を購入することに研究費を使用した。想定していたより低価格で購入が可能であったため、次年度使用額が生じた。次年度は物品費に40万円を想定しており、次年度使用額を合わせて計算機等物品購入に使用する予定である。
|