研究課題/領域番号 |
20K19861
|
研究機関 | 愛媛大学 |
研究代表者 |
梶原 智之 愛媛大学, 理工学研究科(工学系), 助教 (70824960)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 機械翻訳 / 品質推定 / 強化学習 |
研究実績の概要 |
本研究では、自然言語処理モデルによる出力文を正解文なしで自動評価する品質推定に取り組み、これを活用して半教師ありの設定で機械翻訳をはじめとするテキスト生成モデルを訓練する。今年度は、入力文と出力文が同一言語である文法誤り訂正タスクと、入力文と出力文が異言語である機械翻訳タスクの両方において、品質推定モデルの改善に取り組んだ。 (i) 文法誤り訂正タスクにおける品質推定 英語の文法誤り訂正システムによる出力文に対して、文法性・流暢性・同義性の3項目に関する人手評価値を付与したデータセットを構築し、公開した。そして、このデータセットを用いて、品質推定モデルを教師あり学習した。実験の結果、我々の品質推定モデルが、正解文に基づく評価指標や既存の品質推定モデルよりも高い人手評価との相関を達成することが明らかになった。また、27種類の誤りに関する詳細な分析の結果、既存モデルがいくつかの種類の誤り訂正に対して減点してしまっているのに対して、提案モデルは全ての種類の誤り訂正に対して適切に加点できていることがわかった。 (ii) 機械翻訳タスクにおける品質推定 複数言語のデータを用いて単語穴埋めの事前学習を行ったマスク言語モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、マスク言語モデルから得られる文ベクトルを、言語情報を表す言語ベクトルと意味情報を表す意味ベクトルに分離する。この意味ベクトルを用いて、入力文と出力文の間の意味的類似度推定を行うことで、人手評価値を使用しない教師なし設定での機械翻訳の品質推定を実現した。実験の結果、多くのベースモデルと言語対の組み合わせにおいて、品質推定の性能を改善できることがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
品質推定の研究に取り組み、新たな知見を得ることができた。
|
今後の研究の推進方策 |
今年度は、単言語タスクと言語横断タスクの両方において、品質推定の性能を改善した。これを報酬とする強化学習によって、機械翻訳などのテキスト生成タスクの性能改善に取り組む。
|
次年度使用額が生じた理由 |
新型コロナウイルスの影響により、学会等への出張がなくなり、旅費の支出がなくなったため。
|