研究課題/領域番号 |
18H06465
|
配分区分 | 補助金 |
研究機関 | 大阪大学 |
研究代表者 |
梶原 智之 大阪大学, データビリティフロンティア機構, 特任助教(常勤) (70824960)
|
研究期間 (年度) |
2018-08-24 – 2020-03-31
|
キーワード | 知能情報学 / 自然言語処理 / 機械翻訳 / 品質推定 |
研究実績の概要 |
本研究の目的は、人手で作成された正解文の表現に依存しない方法で訓練を行い、機械翻訳器の性能を改善することである。この目的の達成のために、今年度は、テキストの表層的な一致率に依存しない機械翻訳の自動評価について研究を進めた。来年度は、今年度の成果をもとに機械翻訳器を実際に訓練し、また、画像を用いるマルチモーダル品質推定に基づく自動評価の改善に取り組む予定である。 (1) 文の符号化器に基づく機械翻訳の自動評価 大規模な生コーパスを用いて事前学習された文の符号化器を用いることで、入力文・出力文・正解文のそれぞれを分散表現に変換することができる。これらの分散表現間の類似度を推定することによって、我々はテキストの表層的な一致率に頼ることなく、人手評価との高い相関を持つ機械翻訳の自動評価手法を提案した。この自動評価を報酬として、強化学習の枠組みでテキストの表現に依存しない機械翻訳器の訓練を行うことができる。 (2) 文対の符号化器に基づく機械翻訳の自動評価 各文を独立に符号化するのではなく、入力文と出力文あるいは出力文と正解文を同時に符号化することで、文対の関係をより正確に捉えられることを示した。特に、Self-Attention Networkを用いて文対を同時に符号化することによって、文をまたいだ単語間の関係を直接考慮することができる。これによって、我々は人手評価とより高い相関を持つ機械翻訳の自動評価手法を開発することができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究は、(1) テキストの表現に依存しない品質推定、(2) 品質推定を用いた機械翻訳器の訓練、の大きく2つのステップから構成される。今年度は前半の研究が順調に進展しており、来年度は後半の研究に取り組む。
|
今後の研究の推進方策 |
今後は品質推定手法に画像の情報を利用しマルチモーダル化して改善する。そして、実際に機械翻訳器の訓練に利用し、テキストの表層的な一致率に依存しない翻訳器の訓練方法を確立する。
|