2015 Fiscal Year Annual Research Report
日本法情報の即時性・理解性のある国際的発信:統計的機械翻訳に基づく支援
Project/Area Number |
26240050
|
Research Institution | Nagoya University |
Principal Investigator |
外山 勝彦 名古屋大学, 情報基盤センター, 教授 (70217561)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 法律情報 / 自然言語処理 / 統計的機械翻訳 / 文書構造化 / ターミノロジー |
Outline of Annual Research Achievements |
本研究は,社会のグローバル化に伴い必要な日本法の動きに関する情報を迅速に,かつ分かりやすく国際的に発信するための支援環境の構築を目的とする.本年度は,主に以下の成果を得た. 1.「法令のあらまし」の統計的機械翻訳手法の開発:あらまし文の統計的機械翻訳の精度向上のために,(1) あらまし文を特有の括弧表現の内外で分割して翻訳する手法と,(2) あらまし文の語順を英語の語順に事前に並び替えてから翻訳する手法を開発した.実験により,どちらも従来手法に比べて翻訳性能が有意に向上することを示した.また,(2)については,語順並び替えは50形態素より短い文に有効であることも明らかにした. 2.「法令のあらまし」の文書構造化手法の開発:「法令のあらまし」および日本法令を法令・議会文書用XMLスキーマの国際標準(OASIS規格)である Akoma Ntoso に準拠して文書構造化する手法として,従来の文書型定義に基づく構造化文書からの変換規則を策定した.日本法令に対する自動変換ツールを開発し,実験により,正しく変換できることを示した. 3.日本法令用対訳ターミノロジーの構築:対訳コーパスにおける単語アライメント誤りを用いて複単語表現を抽出するとともに,Dice係数を用いてその対訳を抽出する手法を開発した.また,複単語表現の対訳を単トークン化によって統計的機械翻訳に適用する手法を開発した.実験の結果,5,414語からなる複単語表現の日英対訳を抽出し,翻訳性能は有意に向上した.本手法は,複単語表現の対訳を人手で修正しない場合でも修正する場合と遜色がない性能をもつことも示した. 4.「法令のあらまし」対訳データベースの構築:4,703法律の「法令のあらまし」日本語原文の文書構造化と蓄積を完了した.また,30法律の「法令のあらまし」に対して英訳を作成し,日英対訳は合計216法令(370文書)となった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度までに,あらまし文の統計的機械翻訳における主な問題点の解決を図ることができ,統計的機械翻訳の性能自動評価指標BLUEによるスコアの達成目標値40弱に対して,平均的には約39を達成した. また,「法令のあらまし」の文書構造化手法についても,国際標準規格へ準拠させる手法を明らかにし,「法令のあらまし」データベースの設計・運用方法に見通しを付けることができた.なお,その手法は日本法令についても同様に適用可能であることを示し,その成果は,日本政府・総務省が開発中の法令データベースにおける法令文書構造化の設計・運用に反映されることになった.
|
Strategy for Future Research Activity |
あらまし文の統計的機械翻訳については,文長や文構造など,あらまし文の特長をより精密に活用する手法を検討するとともに,近年その性能が注目されている深層学習に基づく方法の適用を検討する. 法令ターミノロジーの構築については,法律中で定義されている語とその語彙情報の抽出と蓄積を推進する.特に,定義語とその定義内容の通時的変化の分析(通時分析)や定義語間の関係の分析(共時分析)を行う手法を開発するともに,その分析結果を蓄積・表示するための手法を検討する.
|
Research Products
(14 results)