研究課題/領域番号 |
22K12177
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 同志社大学 |
研究代表者 |
田村 晃裕 同志社大学, 理工学部, 准教授 (20804165)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2023年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2022年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
|
キーワード | 機械翻訳 / ニューラルネットワーク / 難易度制御 |
研究開始時の研究の概要 |
翻訳文の難易度を多段階で指定可能なニューラルネットワークに基づく機械翻訳(多段階難易度制御NMT)を一般的な言語対で実現する。機械翻訳を多様な読解レベルのユーザに対応させる等の目的で、翻訳文の難易度を指定可能な機械翻訳が研究されている。しかし、既存の多段階難易度制御NMTは、特殊なデータが揃った英語とスペイン語の言語対のみが対象である。そこで本研究では、多段階難易度制御NMT用の教師データが存在しない一般的な言語対において、種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と、少量の教師データを人手で作成して用いる半教師あり学習の二種類の方法で多段階難易度制御NMTを実現する。
|
研究実績の概要 |
本研究は、一般的な言語対において、翻訳文の難易度を多段階で指定可能なニューラルネットワークに基づく機械翻訳(多段階難易度制御NMT)の実現を目指すものである。既存の多段階難易度制御NMTは、翻訳元言語の文、翻訳先言語の文、翻訳先言語の文の難易度の三つ組が教師データとして揃っている、英語とスペイン語の言語対のみが対象になっている。そこで本研究では、多段階難易度制御NMT用の教師データが存在しない一般的な言語対において、種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と、少量の教師データを人手で作成して用いる半教師あり学習の二種類の方法で多段階難易度制御NMTの実現を目指す。 2022年度では、種々の難易度を持つ翻訳先言語の単言語データを利用する教師なし学習による多段階難易度制御NMTモデルを具体化し、実装した。具体的には、まず、翻訳先言語の文を翻訳元言語の文に翻訳する逆翻訳モデルを対訳データから学習する。次に、学習した逆翻訳モデルで種々の難易度を持つ翻訳先言語の単言語データを翻訳元言語の文に翻訳することで、多段階難易度制御NMT用の疑似三つ組データを自動作成する。そして、自動作成した疑似三つ組データを用いた教師あり学習により多段階難易度制御NMTを実現した。 さらに、この創出した枠組みにおいて、疑似三つ組データ作成時の逆翻訳モデルを複数用いて疑似三つ組データの量を増やすことで性能改善を図った。日本語から英語への多段階難易度制御翻訳実験を行い、複数の逆翻訳モデルを用いることで、翻訳性能の評価指標であるBLEUが2.48ポイント、平易化の評価指標であるSARIが1.12ポイント改善できることを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画では、3年間の研究期間で、多段階難易度制御NMTを実現するための2種類の方法((1)種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と(2)少量の教師データを人手で作成して用いる半教師あり学習)を創出することを目指している。2022年度では2種類の方法のうち、方法(1)の具体化と実装を完了し、日英多段階難易度制御NMTモデルを実現した。残りの二年間で、方法(2)のための教師データの作成と、方法(2)のアルゴリズム化・実装、実験による効果検証を行えば本研究の目的は果たせる。以上のことからおおむね順調に進展していると考えられる。
|
今後の研究の推進方策 |
日英多段階難易度制御NMTの半教師あり学習のための少量の教師データを人手で作成する。そして、作成した教師データも用いる半教師あり多段階難易度制御NMTモデルの具体化と実装を行う。具体的には、2022年度に開発した教師なし日英多段階難易度制御NMTモデルを、作成した教師データを用いてファインチューニングする方法などを試す予定である。また、2022年度に開発した多段階難易度制御NMTのための教師なし学習手法の更なる性能改善も同時に行う。
|