2012 Fiscal Year Annual Research Report
法令文作成・英訳支援環境の構築:ターミノロジーと翻訳メモリの利用
Project/Area Number |
23300094
|
Research Institution | Nagoya University |
Principal Investigator |
外山 勝彦 名古屋大学, 情報基盤センター, 教授 (70217561)
|
Project Period (FY) |
2011-04-01 – 2014-03-31
|
Keywords | 法令文作成支援 / 法令対訳コーパス / 法令文コーパス / 法令ターミノロジー |
Research Abstract |
本研究は,政策法務業務の増大に対応するために必要な日本語法令文の作成と,国際社会のグローバル化に対応するために必要な日本語法令文の英訳に対して,計算機を用いて作業支援することを目的としている.本年度は,主に以下の成果を得た. 1.浅い構文情報付き日英法令文対訳コーパスの構築: 戦後のすべての日本法律のテキストを収録するコーパス(昭和21~平成24年,10,067本)を構築した.また,日本語法令221本(120,449文)に対して,チャンカYamChaを用いて浅い構文解析を施した.その際,学習データとして,前年度に構築した浅い構文情報付き日本語法令16本(28,139文)を用いた.その結果,名詞句38,935個,動詞句8,847個(異なり数)を抽出し,出現頻度などの特徴を解析した. 2.法令翻訳メモリの構築:戦後占領期の英文官報に掲載された法律(1,624本)に対して,文対応付き日英対訳コーパスを構築した. 3.法令ターミノロジーの構築:法令中の定義規定から正規表現によるマッチングによって,定義語とその語義文,および定義語の上位・下位関係を抽出する手法を開発し,日本語法令241本(10,9380文)から定義語1,207語とその語義文を抽出した.そのうち無作為抽出した100語について,既存のシソーラスと比較したところ,上位・下位関係の判定精度は64.0%であった.さらに,法令文中で括弧書きにより記述されている定義規定および略称規定について,法令文の文頭の主語にそれらの規定が出現しやすいという性質を利用して,定義語とその語義文を抽出する手法を開発した.前述の法令241本から定義語1,941語を抽出したところ,抽出精度はトイウ形定義語(1,501語)が90.9%,ヲイウ形定義語(440語)が77.7%であった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度までに,文対応付き法律日英対訳コーパスおよび日本語法律コーパスの構築が完了した.これは,法令翻訳メモリや法令ターミノロジーを構築するための基本的な言語資源となる.また,今年度は定義語とその語義文の抽出手法の開発も行った.これは,法令ターミノロジーを構成する用語や用語間の関係の抽出のための基礎的な手法である.
|
Strategy for Future Research Activity |
今年度までに構築した言語資源および開発した語彙知識抽出手法を用いて,法令ターミノロジーの構成要素となる用語や用語間の関係の抽出を大規模かつ組織的に行う.その際,形態素解析の前に,用語の表記に用いられている漢字の字体変換や平仮名の拗音の表記変換(大書き「つ」から小書き「っ」への変換)が必要になると考えられるが,字体対応表や表記変換辞書を構築するなどの方法により対処することを考える.また,引き続き,法令ターミノロジーに蓄積する情報の表現形式を検討する.
|
Research Products
(11 results)