研究概要 |
本研究は,政策法務業務の増大に対応するために必要な日本語法令文の作成と,国際社会のグローバル化に対応するために必要な日本語法令文の英訳に対して,計算機を用いて作業支援することを目的としている.本年度は,主に以下の成果を得た. 1.浅い構文情報付き日英法令文対訳コーパスの構築: 戦後のすべての日本法律のテキストを収録するコーパス(昭和21~平成24年,10,067本)を構築した.また,日本語法令221本(120,449文)に対して,チャンカYamChaを用いて浅い構文解析を施した.その際,学習データとして,前年度に構築した浅い構文情報付き日本語法令16本(28,139文)を用いた.その結果,名詞句38,935個,動詞句8,847個(異なり数)を抽出し,出現頻度などの特徴を解析した. 2.法令翻訳メモリの構築:戦後占領期の英文官報に掲載された法律(1,624本)に対して,文対応付き日英対訳コーパスを構築した. 3.法令ターミノロジーの構築:法令中の定義規定から正規表現によるマッチングによって,定義語とその語義文,および定義語の上位・下位関係を抽出する手法を開発し,日本語法令241本(10,9380文)から定義語1,207語とその語義文を抽出した.そのうち無作為抽出した100語について,既存のシソーラスと比較したところ,上位・下位関係の判定精度は64.0%であった.さらに,法令文中で括弧書きにより記述されている定義規定および略称規定について,法令文の文頭の主語にそれらの規定が出現しやすいという性質を利用して,定義語とその語義文を抽出する手法を開発した.前述の法令241本から定義語1,941語を抽出したところ,抽出精度はトイウ形定義語(1,501語)が90.9%,ヲイウ形定義語(440語)が77.7%であった.
|