研究概要 |
本研究は,政策法務業務の増大に対応するために必要な日本語法令文の作成と,国際社会のグローバル化に対応するために必要な日本語法令文の英訳に対して,計算機を用いて作業支援することを目的としている.本年度は,主に以下の成果を得た. 1.浅い構文情報付き日英法令文対訳コーパスの構築 日本語法令10本(13,569文)に対して,SVMに基づいたチャンカYamChaを用いて,名詞句・動詞句を抽出する浅い構文解析(チャンキング)を施した.その結果,チャンキング済の日本語法令コーパスは法令17本(28,393文)となった. 2.法令翻訳メモリの構築 文対応付き日英対訳法令文276,597文(法令259本,ことなり原文129,120文,ことなり対訳文147,119文)を用いて,翻訳メモリを構築した.また,この翻訳メモリに対する検索システムも構築した.この翻訳メモリは標準的なTMX形式に変換して,出力できるものである.また,法令文の間の距離関数を実験的に比較し,翻訳対象の法令文に類似した文を翻訳メモリから選択する手法を検討した. 3.構文情報付き日英法令文対訳コーパスからの対訳パターン自動抽出 ブートストラップに基づく対訳文からの対訳語彙意味カテゴリ自動抽出手法b-Monakaを開発した.この手法は,語彙意味カテゴリ抽出と対訳表現獲得の2段階の処理を統合するものである.文対応付き日英対訳法令193本(90,273文)を用いて実験したところ,特に繰り返し30回において精度82.0%で対訳表現を抽出できた.また,従来手法では困難であった複数の語からなる長い専門用語の抽出が可能であった.さらに,対訳文を語彙の文脈情報として使う方法の有効性を示すことができた.
|
今後の研究の推進方策 |
引き続き,浅い構文情報付き日英法令文対訳コーパスの構築を推進する.また,チャンキングによって抽出した名詞句・動詞句に対して,今年度開発した対訳語彙意味カテゴリ自動抽出技術などを用いて,それらの対訳表現を自動抽出する.さらに,法令ターミノロジーの構築について,それに蓄積する情報の表現形式の策定,および,それに収録する語彙やそれに関する情報の抽出・獲得手法を検討する.
|