2019 Fiscal Year Research-status Report
発話・応答テキストの自動品質推定による大規模対話データ構築
Project/Area Number |
18K11435
|
Research Institution | Osaka University |
Principal Investigator |
荒瀬 由紀 大阪大学, 情報科学研究科, 准教授 (00747165)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 対話システム / 自然言語処理 |
Outline of Annual Research Achievements |
発話・応答をテキストとして提供する対話データの不足が、雑談対話システムを研究開発する上で大きな障壁となっている。そこで本研究では大規模対話データ構築と、構築したデータを用いた雑談対話システムの構築に取り組む。 今年度は (1) パラフレーズ技術を用いた疑似発話・応答生成による対話データの拡張 (2) 一貫性と多様性を両立した応答を行う対話システムの構築、に取り組む計画であった。(1) について、人間による発話・応答文を収集した対話データは、対話システム構築において非常に重要な言語資源である。しかしこのような対話データを収集できるリソースはTwitterのようなSNSサービス上での会話に限定される。SNSサービスにおいても、多くのポストは会話になっておらず、収集できるデータ量は限定的である。そこで本研究では、パラフレーズ技術を応用して疑似的な発話・応答文を生成することで、対話データを拡張する。今年度は、2018年度に開発したスタイル変換技術を応用した疑似発話・応答生成による対話データの拡張を行った。 (2) について、既存の深層学習を用いた対話システムでは、「いいですね」のような、汎用的ではあるがユーザにとって情報量が少なく、面白みがない応答を頻繁に生成するという問題がある。このような応答は対話システムに対するユーザの印象に悪影響を及ぼし、対話システムの継続利用を阻害する要因となる。対話システムとユーザの対話が継続するには、ある発話に対する文脈的な一貫性に加え、応答の多様性が重要である。多様性を持たせることで、ユーザにとって情報量の多い、妥当な応答を返すことが可能となる。そこで、深層学習を用いた対話システムにおける応答の多様性改善に取り組んだ。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
今年度は (1) パラフレーズ技術を用いた疑似発話・応答生成による対話データの拡張 (2) 一貫性と多様性を両立した応答を行う対話システムの構築、に取り組んだ。 (1) について、これまで収集した対話データについて、それぞれの発話・応答のパラフレーズを生成することで、対話データの拡張を行った。2018年度に開発したスタイル変換技術を応用している。ニューラル機械翻訳を用い、発話文を別の言語の文に翻訳、翻訳文をさらに元の言語の文に逆翻訳することで、単一言語のコーパスからパラフレーズを大規模に生成できる。これにより、疑似的に発話・応答文を生成することで対話データの拡張に取り組んだ。 (2) について、一貫性と多様性を両立した応答生成手法として、(a) 会話のトピックに対し主観的な意見を述べる応答の自動生成 (b) ユーザ発話中の単語に反応する応答生成 (c) Dialogue-act予測による応答の妥当性向上、に取り組んだ。(a) では、会話のトピックについて、主観的な意見を述べる応答を生成することで応答の多様性を向上するアプローチをとった。応答をポジティブもしくはネガティブにするかを指定するラベルと会話トピックをニューラルネットワークによりエンコードした埋め込み表現をモデルに入力し、学習を行うことで、トピックについて主観的な意見を含む応答を生成する。(b) では、ユーザ発話に現れる単語に反応した応答を生成することで、応答の多様性を向上する。対話コーパスから集計した単語間の共起関係を用い、応答においてユーザ発話に現れる単語と共起しやすい単語の生成を促進する。(c) では、応答文のDialogue-actを予測することで、応答の一貫性を向上する。これにより、質問には回答を返すなど、妥当な応答文の生成を促進できると期待される。
|
Strategy for Future Research Activity |
今後は、一貫性と多様性を両立した応答生成システムを更に発展させる予定である。雑談対話システムはニューラル機械翻訳と同様のモデルを用いて構築するのが主流であるが、雑談のように入力文に対して可能な応答が多様なタスクにおいては「そうですね」や「わかる」などといった、可能な中で最も無難で高頻度な応答を生成してしまう問題を抱えている。これはモデルが入力発話文に対する応答として参照文が生成される確率を最大化するように訓練されるため、雑談対話のように可能な応答が多岐に渡る問題では高頻度な応答の生成の学習が優勢になるためと考えられる。また、既存のモデルでは生成される応答を制御することはできず、どのような応答が生成されるか、生成してみなければ分からないという課題がある。 そこで無難な応答を抑制し、入力文に対する関連度が高く、かつ情報量の多い応答を生成する対話システムの開発に取り組む。さらに、応答の情報量を制御する機構を導入し、応答生成の制御を実現する。今年度開発した、ユーザ発話中の単語に反応した応答を生成する対話システム(上記 (2)の(b))を発展させ、単語間の共起関係を用い、ある入力発話文に対して共起しやすい特徴的な単語を出力しやすくなるよう、応答生成器を改良する。この時、応答文の情報量を測る指標を設計し、学習データに自動的に付与することで Distant Supervision を導入する。これによって入力文と応答文の一意性を高め、かつ推論時には任意のスコアを入力することで応答文の情報量を制御できると期待される。
|
Causes of Carryover |
本研究ではユーザと継続して対話を行える高度な対話能力を備えた雑談対話システムを実現するため、大規模対話データ構築と、構築したデータを用いた対話システムの構築に取り組んでいる。今年度は3件の国際会議論文、1件の国内会議論文、1件の招待講演の成果を達成した。これらの研究成果発表および最新研究動向調査のための国内外の学会参加に際し、研究費を使用したが、予定していたよりも旅費が抑えられたため、次年度繰越金が発生した。 次年度はCOVID-19の状況から海外出張は大きく制限されると見込まれるため、繰越金は研究に必要となる計算機の購入に使用予定である。
|