本年度は、前年度に引き続き、対話データ中のノイズを自動で除去するための効果的な方法論の確立に取り組んだ。本年度の大きな研究成果として、対話データ中に含まれる低品質な発話-応答ペアを自動で検出するための方法論を確立したことが挙げられる。自然言語処理だけでなく社会言語学等の周辺分野も対象とした広域的な文献調査、および実データに基づくデータ科学的な観察と分析に基づき、発話系列において、発話間の表層的な接続の度合いと意味内容の関連の度合いが大きいものほど対話として成立する可能性が高い、すなわち、品質の良い発話-応答ペアである可能性が高いということを明らかにした。その上で、表層的な接続性については統計的機械翻訳の句アライメント抽出技術を、意味内容の関連性については単語埋め込み技術を利用してそれぞれスコア関数としてモデル化し、これらを組み合わせることで発話-応答ペアの自動品質評価を可能にした。提案した方法論の有用性については、クラウドソーシングを用いた人手評価により、提案法を用いて算出したスコアが発話-応答ペアの品質評価の観点で人間の主観と概ね相関することを実証した。本研究成果は、言語処理分野の権威ある最難関国際会議のひとつである Conference on Empirical Methods in Natural Language Processing (EMNLP 2020) に採択され、口頭発表をおこなった。また、関連する内容を人工知能学会全国大会でも発表し、全国大会学生奨励賞を受賞した。本年度の研究成果は、研究課題の実現に向けて研究を確実に前進させたと同時に、当該分野においては国内外でその学術的貢献が高く評価されている。
|