研究概要 |
本研究は,政策法務業務の増大に対応する法令文作成支援と,国際社会のグローバル化に対応する法令英訳支援のために,構文情報付き日英法令文コーパスの構築と利用のための手法を確立することを目的としている.本年度は,前年度までの成果の取りまとめに加えて,新たな成果として主に以下のものを得た. 1. 構文情報付き日本語法令文コーパス構築 日本語法令文14,824文(憲法,六法,会社法の8法令)に対して,浅い構文情報を付与したコーパスを構築した.浅い構文情報としては,形態素のタグ付けほかに,名詞句,動詞句のチャンキングを実施した. 2. 構文情報を活用した日英法令文の検索・閲覧・編集GUIツール設計・開発 (1) 前年度までに開発した英文検索システムESCORTをもとに,入力した日本語キーワード間に係り受け関係がある日本語文を検索するシステムEscortJacsを開発した. (2) 前年度までに開発した英文フレーズ(頻出表現)検索システムSCOPEを拡張し,直接的に連接していないフレーズめ抽出も可能となるようにした.また,この拡張版SCOPEをウェブ上で公開した. (3) ワードアライメントを用いた対訳表現抽出支援ツールBilingual KWIC(Web版)について,対訳コーパスのメモリ常駐化,Nグラム作成の事前処理,ソースコードの最適化などの工夫により,約5倍の高速化を実現した. 3. 構文情報付き日英法令文対訳コーパスからの対訳パターン自動抽出 日本語法令文からの重要語と文脈パターンのブートストラップ型自動獲得手法Monakaをもとに,日英対訳法令文から対訳表現をブートスラップによって自動獲得する手法b-Monakaを開発し,その基本的性能を確認した.この手法は,従来の辞書見出し語抽出と対訳表現獲得という2段階の処理を統合するものである.
|