研究課題/領域番号 |
23K11118
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
キーワード | 情報アクセス / 双方向学習 / 系列変換モデル / 機械翻訳 / データ多様化 / パラメータ共有 / 対訳語彙獲得 |
研究実績の概要 |
本研究では、(A) 情報変換問題に対する効果的な双方向問題対の相互学習法を開発すること、(B) 双方向問題対の相互学習法の持つ性質を詳細に調査する事で手法の適用可能条件や予想される効果に関する理解を深めること、(C) 相互学習法を言語とモダリティを横断する情報アクセスの問題に適用すること、を目的とする。当該年度は、(A)と(B)について研究を進めた。 (A)として、機械翻訳における効果的な相互学習法であるIterative Back-Translation (IBT)の改善手法を調査した。まず、IBTにおける効果的な擬似対訳生成手法を検討した。逆翻訳による擬似対訳文生成には、必ずしも高品質な候補文が必要ではなく、むしろ低品質でも多様な候補が有効であることが知られている。これらのバランスを取る手法を検討し、複数候補の比較から文を選択する手法を新たに開発した。また、効果的なIBTによる学習手法として、複数モデルを用いたデータ多様化の導入によるデータ拡張と、アンサンブル翻訳による精度向上、およびこれらを組み合わせる手法の開発を行なった。さらに、双方向学習に適した翻訳モデルアーキテクチャとして、双方向翻訳を単一のモデルで実現するDualformerアーキテクチャを導入し、単一モデルで入力再構築の学習が可能であることを確認した。 (B)として、IBTによる対訳語彙獲得の調査を行い、その原理についての理解を深めた。互いに対応関係のない2つの言語の単言語データであっても、IBTは自動的に単語の対応関係 (対訳語彙) を獲得することができる。その獲得過程を詳細に分析することにより、単語の文脈が重要な役割を担っていることを明らかにし、獲得プロセスについて仮説を立てて検証した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
情報変換問題として機械翻訳に焦点を当て、双方向問題対の相互学習法であるIterative Back-Translation (IBT)の性能を改善する手法を、擬似データ生成法、学習方法、推論方法の複数の観点から開発し、それぞれ成果を得ることができた。また、IBTの対訳語彙獲得について調査を進め、その原理についておおむね解明することができた。
|
今後の研究の推進方策 |
本研究では、(A) 情報変換問題に対する効果的な双方向問題対の相互学習法を開発すること、(B) 双方向問題対の相互学習法の持つ性質を詳細に調査する事で手法の適用可能条件や予想される効果に関する理解を深めること、(C) 相互学習法を言語とモダリティを横断する情報アクセスの問題に適用すること、を目的とする。これまでに課題(A)(B)の成果がある程度得られたことを受けて、今後は(A)(B)をさらに推進するとともに、(C)の課題に着手する。 課題(A)について、機械翻訳におけるIterative Back-Translationについて複数の改善手法を開発したが、その過程で新たな改善手法のアイデアも生まれており、さらに研究を進める。また、機械翻訳以外の情報変換問題への適用も検討する。 課題(B)について、語彙獲得の原理が明らかになったことを受けて、その知見を活用した効果的な対訳語彙獲得手法の開発を行う。対訳語彙獲得は、未知データ間の関連性を自動的に見出して知識を獲得することと一般化し、相互学習法の理解をさらに進める。 課題(C)について、まずは言語と言語以外のデータとの情報変換問題に、相互学習法の導入に着手する。具体的には、言語と表データの間の情報対応付問題を検討する。
|