研究実績の概要 |
本研究は,社会のグローバル化に伴い必要な日本法に関する情報を即時に,かつ国際的に発信するために,法令改正に伴う英訳法令の修正を支援する機械翻訳技術の開発と計算機環境の構築を目的とする.本年度は,主に次の成果を得た. ① 新旧対照・日英対訳法令文コーパスの構築: 機械翻訳用学習データの構築について,昨年度の手法を改良して推進した.まず,法務省・日本法令外国語訳データベースシステム(JLT)から日英対訳法令データと総務省・e-Gov法令検索から現行法令データを取得した.また,国立国会図書館・日本法令索引から法令沿革データを取得・整理した.次に,JLT収録法令のうち隣接改正バージョンに対して,新旧原文,新旧訳文からなる法令文四つ組データ54組を新たに獲得するとともに,新旧原文間の差分箇所に対して,新旧対照表における傍線付与ルールに準拠してマークアップした.さらに,JLT収録の最新改正バージョンよりも新しい改正バージョンがe-Govに収録されている法令に対して,JLT最新改正バージョンの原文(旧原文),その訳文(旧訳文),e-Gov現行バージョンの原文(新原文)からなる法令文三つ組データ462組を作成した. ② 法令文校正手法の開発: 法令文中に出現する法令用語について,その用法に基づいて適切に校正する手法として,分類器に事前学習済みニューラル汎用言語表現モデルBERTを用いる方法を開発した.現行3,983法令中の法令文1,223,084文を用いた実験の結果,約97.6%の正解率が得られ,本手法は昨年度開発のランダムフォレストを用いる手法を含めた従来手法よりも有効であることを明らかにした.また,ファインチューニングにおいて,ドメイン適応,訓練データのソフト・アンダーサンプリング,全法令用語集合共通の分類器構築の有効性も示した.本手法は英訳文中における訳語の修正方法の基礎となる.
|