研究課題/領域番号 |
20K19861
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 愛媛大学 |
研究代表者 |
梶原 智之 愛媛大学, 理工学研究科(工学系), 講師 (70824960)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 機械翻訳 / 品質推定 / 強化学習 / 自然言語処理 / 知能情報学 |
研究開始時の研究の概要 |
東京五輪や大阪万博に向けて、機械翻訳の精度向上が急務である。従来の機械翻訳の訓練では、モデルが出力した翻訳文を単語単位で表層的に正解文と比較して品質を評価し、モデルにフィードバックする。しかし、このような方法では、正解文と表層的に一致しない良い翻訳文に対して不当に低い評価を与える場合がある。本研究では、文単位で意味的に入力文と比較して翻訳文を評価し、翻訳器を訓練する。この方法では、対訳データなしで翻訳器を訓練できるため、少資源や教師なしの設定における中品質な機械翻訳を改善でき、各種サービスの多言語展開に貢献すると期待できる。
|
研究実績の概要 |
本研究では、自然言語処理モデルによる出力文を正解なしで自動評価する品質推定に取り組み、これを活用して半教師ありの設定で機械翻訳をはじめすとるテキスト生成モデルを訓練する。今年度は、自動生成した擬似的な訓練データを用いて、機械翻訳の品質推定を改善した。 研究期間全体を通して、以下の成果を得た。 (i) 機械翻訳の品質推定に関する研究:XLM-RやLaBSEなどの多言語文符号化器を用いて、機械翻訳の品質推定に取り組んだ。2020年度には、国際会議WMTの品質推定コンペティションにおいて、言語識別の工夫によって人手評価との誤差で2位を記録した。2021年度から2022年度にかけては、多言語文符号化器から意味に関する情報と言語に関する情報を抽出する文埋め込みの分離に取り組んだ。これらの技術は、言語横断類似度推定や機械翻訳の教師なし品質推定の性能改善に貢献した。2023年度には、同じく教師なし品質推定において、擬似データを活用して更なる性能改善を実現した。これらの他、mBARTなどのデコーダベースの品質推定にも取り組み、特に多資源言語対における機械翻訳の品質推定に関する有効性を確認した。また、関連タスクである文法誤り訂正についても、品質推定の研究に取り組んだ。 (ii) テキスト生成の強化学習に関する研究:機械翻訳およびテキスト平易化において、強化学習の枠組みで生成文の品質を改善した。品質推定の技術を活用して生成文から報酬を推定し、テキスト生成モデルを訓練した。
|