2014 Fiscal Year Annual Research Report
日本法情報の即時性・理解性のある国際的発信:統計的機械翻訳に基づく支援
Project/Area Number |
26240050
|
Research Institution | Nagoya University |
Principal Investigator |
外山 勝彦 名古屋大学, 情報基盤センター, 教授 (70217561)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 法律情報 / 自然言語処理 / 統計的機械翻訳 / 文書構造化 |
Outline of Annual Research Achievements |
本研究は,社会のグローバル化に伴い必要な日本法の動きに関する情報を迅速に,かつ分かりやすく国際的に発信するための支援環境の構築を目的とする.本年度は,主に以下の成果を得た. 1.「法令のあらまし」の統計的機械翻訳手法の開発:大規模な法令文日英対訳コーパスを学習データとし,小規模なあらまし文日英対訳コーパスによってデコーダのパラメータを調整する手法に加えて,文末表現の「~することとした」や位取りのない漢数字表現など,あらまし文特有の表現に対応させるために,あらまし文日英対訳コーパスや漢数字表記日英対訳コーパスを学習データに追加する手法を開発した.法令文日英対訳コーパス166,977文とあらまし文日英対訳コーパス1,742文,漢数字日英対訳コーパス1,176文からなる学習コーパス,および,パラメータ調整用のあらまし文日英対訳300文を用い,あらまし文1,371文を入力とする比較実験を行い,それらの手法は有効であることを明らかにした. 2.「法令のあらまし」の文書構造化手法の開発:「法令のあらまし」用の文書型定義(DTD)を考案した.特に,階層化された箇条書きに対して見出し番号の付与ポリシーを特定するアルゴリズムを開発し,見出し番号の表記揺れに対応できるマークアップ手法を開発した.また,自動マークアップツールを開発した. 3.「法令のあらまし」対訳データベースの構築:「法令のあらまし」日英対訳構造化文書を蓄積するデータベースシステムの設計・開発を行った.そのGUIは,キーワード,公布日,翻訳日,法令番号,所管府省を検索キーとする検索機能や,原文と訳文の対応関係を日英対照表や英日交互配置により分かりやすく表示する機能を有する.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度までに,翻訳モデルの学習のための対訳コーパスが小規模であるという問題点の解決と,文末表現や漢数字表記など,あらまし文特有の表現への対応を考慮した統計的機械翻訳手法の基本的な開発を終え,改良すべき点について明らかにすることができた.また,「法令のあらまし」文書の構造化手法の開発も終え,自動マークアップツールの実現も完了し,同文書の構造化とその蓄積について作業の見通しを付けることができた.さらに,「法令のあらまし」対訳データベースとその公開用のGUIの設計・開発も基本的に終了し,ターミノロジーとの連携機能の設計・開発を残すだけとなった.
|
Strategy for Future Research Activity |
あらまし文が長文である場合に統計的機械翻訳の性能が芳しくないという問題が生じたので,それに対処するために,あらまし文を特有の括弧表現の内外で分割して学習モデルを構築する手法を開発する. また,文書構造化手法を確立したので,過去から現在までの「法令のあらまし」の文書構造化と蓄積に着手する. 法令ターミノロジーの構築については,その基本構造の設計を推進するともに,用語や関連情報の抽出手法とそれらコンテンツの整備を図る.
|
Research Products
(8 results)