2019 Fiscal Year Annual Research Report
法令改正に伴う英訳法令修正を支援する環境の構築:ハイブリッド機械翻訳に基づく手法
Project/Area Number |
18H03492
|
Research Institution | Nagoya University |
Principal Investigator |
外山 勝彦 名古屋大学, 情報基盤センター, 教授 (70217561)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 法情報処理 / 法令翻訳 / 法制執務 / 機械翻訳 / 自然言語処理 |
Outline of Annual Research Achievements |
本研究は,社会のグローバル化に伴い必要な日本法に関する情報を即時に,かつ国際的に発信するために,法令改正に伴う英訳法令の修正を支援する機械翻訳技術の開発と計算機環境の構築を目的とする.本年度は,主に次の成果を得た. ① 新旧対照・日英対訳法令文コーパスの構築: 機械翻訳用学習データの構築について,昨年度の手法を改良して推進した.まず,法務省・日本法令外国語訳データベースシステム(JLT)から日英対訳法令データと総務省・e-Gov法令検索から現行法令データを取得した.また,国立国会図書館・日本法令索引から法令沿革データを取得・整理した.次に,JLT収録法令のうち隣接改正バージョンに対して,新旧原文,新旧訳文からなる法令文四つ組データ54組を新たに獲得するとともに,新旧原文間の差分箇所に対して,新旧対照表における傍線付与ルールに準拠してマークアップした.さらに,JLT収録の最新改正バージョンよりも新しい改正バージョンがe-Govに収録されている法令に対して,JLT最新改正バージョンの原文(旧原文),その訳文(旧訳文),e-Gov現行バージョンの原文(新原文)からなる法令文三つ組データ462組を作成した. ② 法令文校正手法の開発: 法令文中に出現する法令用語について,その用法に基づいて適切に校正する手法として,分類器に事前学習済みニューラル汎用言語表現モデルBERTを用いる方法を開発した.現行3,983法令中の法令文1,223,084文を用いた実験の結果,約97.6%の正解率が得られ,本手法は昨年度開発のランダムフォレストを用いる手法を含めた従来手法よりも有効であることを明らかにした.また,ファインチューニングにおいて,ドメイン適応,訓練データのソフト・アンダーサンプリング,全法令用語集合共通の分類器構築の有効性も示した.本手法は英訳文中における訳語の修正方法の基礎となる.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
機械翻訳用学習データの構築に時間を要した.昨年度に構築手法を変更したが,新旧バージョン間での差分箇所のマークアップ作業は,開発した作業用ツールを用いているが,その正確性の確認は,最終的には手作業によらなければならないからである.
|
Strategy for Future Research Activity |
機械翻訳と翻訳メモリに基づく翻訳を融合したハイブリッド機械翻訳の手法として,法令の一部改正に伴う訳文の修正を英語法令文の校正とみなす手法を引き続き開発する.その際に用いる対訳コーパスは,(1) 法務省・日本法令外国語訳データベースシステム(JLT)から取得して構築してきた新旧原文,新旧訳文からなる法令文四つ組データに加え,(2) 今年度に新たに構築した法令文三つ組データ(総務省・e-Gov法令検索から取得した現行バージョン(新原文),JLT収録法令中の最新改正バージョンの日本語原文(旧原文),その英訳文(旧訳文))に対して,新原文の翻訳により新訳文を作成して加え,四つ組データに拡張したものを使用する. また,一部改正前後の法令テキスト(改正バージョン)を管理するための法令沿革データベースの設計と開発を引き続き推進する.このデータベースはLinked Open Dataとして構築し,日本語原文とその英訳文の間の対訳関係や翻訳品質向上のための英訳だけの修正など,翻訳法令固有の関係に留意したRDFスキーマをより詳細に設計する.
|