2019 Fiscal Year Annual Research Report

法令改正に伴う英訳法令修正を支援する環境の構築：ハイブリッド機械翻訳に基づく手法

Research Project

Project/Area Number	18H03492
Research Institution	Nagoya University
Principal Investigator	外山勝彦名古屋大学, 情報基盤センター, 教授 (70217561)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	法情報処理 / 法令翻訳 / 法制執務 / 機械翻訳 / 自然言語処理
Outline of Annual Research Achievements	本研究は，社会のグローバル化に伴い必要な日本法に関する情報を即時に，かつ国際的に発信するために，法令改正に伴う英訳法令の修正を支援する機械翻訳技術の開発と計算機環境の構築を目的とする．本年度は，主に次の成果を得た． ① 新旧対照・日英対訳法令文コーパスの構築：　機械翻訳用学習データの構築について，昨年度の手法を改良して推進した．まず，法務省・日本法令外国語訳データベースシステム（JLT）から日英対訳法令データと総務省・e-Gov法令検索から現行法令データを取得した．また，国立国会図書館・日本法令索引から法令沿革データを取得・整理した．次に，JLT収録法令のうち隣接改正バージョンに対して，新旧原文，新旧訳文からなる法令文四つ組データ54組を新たに獲得するとともに，新旧原文間の差分箇所に対して，新旧対照表における傍線付与ルールに準拠してマークアップした．さらに，JLT収録の最新改正バージョンよりも新しい改正バージョンがe-Govに収録されている法令に対して，JLT最新改正バージョンの原文（旧原文），その訳文（旧訳文），e-Gov現行バージョンの原文（新原文）からなる法令文三つ組データ462組を作成した． ② 法令文校正手法の開発：　法令文中に出現する法令用語について，その用法に基づいて適切に校正する手法として，分類器に事前学習済みニューラル汎用言語表現モデルBERTを用いる方法を開発した．現行3,983法令中の法令文1,223,084文を用いた実験の結果，約97.6%の正解率が得られ，本手法は昨年度開発のランダムフォレストを用いる手法を含めた従来手法よりも有効であることを明らかにした．また，ファインチューニングにおいて，ドメイン適応，訓練データのソフト・アンダーサンプリング，全法令用語集合共通の分類器構築の有効性も示した．本手法は英訳文中における訳語の修正方法の基礎となる．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 機械翻訳用学習データの構築に時間を要した．昨年度に構築手法を変更したが，新旧バージョン間での差分箇所のマークアップ作業は，開発した作業用ツールを用いているが，その正確性の確認は，最終的には手作業によらなければならないからである．
Strategy for Future Research Activity	機械翻訳と翻訳メモリに基づく翻訳を融合したハイブリッド機械翻訳の手法として，法令の一部改正に伴う訳文の修正を英語法令文の校正とみなす手法を引き続き開発する．その際に用いる対訳コーパスは，(1) 法務省・日本法令外国語訳データベースシステム（JLT）から取得して構築してきた新旧原文，新旧訳文からなる法令文四つ組データに加え，(2) 今年度に新たに構築した法令文三つ組データ（総務省・e-Gov法令検索から取得した現行バージョン（新原文），JLT収録法令中の最新改正バージョンの日本語原文（旧原文），その英訳文（旧訳文））に対して，新原文の翻訳により新訳文を作成して加え，四つ組データに拡張したものを使用する．また，一部改正前後の法令テキスト（改正バージョン）を管理するための法令沿革データベースの設計と開発を引き続き推進する．このデータベースはLinked Open Dataとして構築し，日本語原文とその英訳文の間の対訳関係や翻訳品質向上のための英訳だけの修正など，翻訳法令固有の関係に留意したRDFスキーマをより詳細に設計する．

Research Products
(7 results)

All 2020 2019 Other

All Int'l Joint Research (1 results) Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (5 results) (of which Int'l Joint Research: 4 results)

[Int'l Joint Research] Kathetsart University(タイ)
- Country Name
  THAILAND
- Counterpart Institution
  Kathetsart University
[Journal Article] Japanese Legal Term Correction using Random Forest2020
- Author(s)
  Yamakoshi Takahiro, Ogawa Yasuhiro, Komamizu Takahiro, Toyama Katsuhiko
- Journal Title
  
  Transactions of the Japanese Society for Artificial Intelligence
  
  Volume: 35 Pages: H-J53_1-14
- DOI
  10.1527/tjsai.H-J53
- Peer Reviewed / Open Access
[Presentation] Japanese Mistakable Legal Term Correction using Infrequency-aware BERT Classifier2019
- Author(s)
  Takahiro Yamakoshi, Takahiro Komamizu, Yasuhiro Ogawa, Katsuhiko Toyama
- Organizer
  3rd Annual Workshop on Applications of Artificial Intelligence in the Legal Industry, 2019 IEEE Int. Conf. on Big Data
- Int'l Joint Research
[Presentation] Exploring Relevant Parts between Legal Documents using Substructure Matching2019
- Author(s)
  Takahiro Komamizu, Kazuya Fujioka, Yasuhiro Ogawa, Katsuhiko Toyama
- Organizer
  13th Int. Workshop on Juris-informatics
- Int'l Joint Research
[Presentation] Analyzing Japanese Law History through Modeling Multi-versioned Entity2019
- Author(s)
  Takahiro Komamizu, Yushi Uchida, Yasuhiro Ogawa, Katsuhiko Toyama
- Organizer
  2nd Int. Conf. on Contextualized Knowledge Graphs
- Int'l Joint Research
[Presentation] Thai Legal Term Correction using Random Forests with Outside-the-sentence Features2019
- Author(s)
  Takahiro Yamakoshi, Vee Satayamas, Hutchatai Chanlekha, Yasuhiro Ogawa, Takahiro Komamizu, Asanee Kawtrakul, Katsuhiko Toyama
- Organizer
  33rd Pacific Asia Conference on Language, Information and Computation
- Int'l Joint Research
[Presentation] 共通BERT分類器による紛らわしい法令用語の校正2019
- Author(s)
  山腰貴大, 駒水孝裕, 小川泰弘, 外山勝彦
- Organizer
  言語処理学会NLP若手の会第14回シンポジウム

2019 Fiscal Year Annual Research Report

法令改正に伴う英訳法令修正を支援する環境の構築：ハイブリッド機械翻訳に基づく手法

Principal Investigator

外山 勝彦 名古屋大学, 情報基盤センター, 教授 (70217561)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] Kathetsart University(タイ)

Country Name

Counterpart Institution

[Journal Article] Japanese Legal Term Correction using Random Forest2020

Author(s)

Journal Title

DOI

[Presentation] Japanese Mistakable Legal Term Correction using Infrequency-aware BERT Classifier2019

Author(s)

Organizer

[Presentation] Exploring Relevant Parts between Legal Documents using Substructure Matching2019

Author(s)

Organizer

[Presentation] Analyzing Japanese Law History through Modeling Multi-versioned Entity2019

Author(s)

Organizer

[Presentation] Thai Legal Term Correction using Random Forests with Outside-the-sentence Features2019

Author(s)

Organizer

[Presentation] 共通BERT分類器による紛らわしい法令用語の校正2019

Author(s)

Organizer

外山勝彦名古屋大学, 情報基盤センター, 教授 (70217561)