研究概要 |
(1)対訳文章としては,Scientific American(雑誌)の5冊分,英語単語にして約10万語,その日本語訳テキストの約30万文字を対象とし,英語OCR,日本語OCRによるテキストデ-タの計算機入力を行った。 (2)このテキストデ-タの計算機内でのファイルシステムを作成し,英語と日本語との対応が取りやすいよう工夫した。 (3)日本語デ-タについては,単語単位への分割を行うことが必要なので,日本語形態素解析のシステムをSUNワ-クステ-ション上に作成した。これは他へ移植可能となっている。 (4)日本語テキストの形態素解析のシステムをうまく働かせるためには,単語辞書をうまく用意する必要があるので,ユ-ザがテキストの分野に応じて形態素文法を定義することのできる辞書システムを作った。 (5)英語文章とその翻訳の日本語文章との文単位の対応づけの予備実験を行った。その対応を計算機で自動的に行わせた結果,(i)日本語文章の1パラグラフに対して英語文章の2〜3パラグラフが対応する場合がある程度存在し,英語の1パラグラフに対して日本語の2〜3パラグラフが対応する場合は少ないこと,(ii)英語の1文が日本語の2〜4文に対応する場合と,逆に日本語の1文が英語の2〜4文に対応する場合とが,それぞれ同程度に生じるという結果が得られた。 この結果の妥当性を人手でチェックしたところ,自動対応の精度がそれほど良くないことが判明した。その原因は,短い文の場合に,英文と日本語文との対応を誤りやすいということにあり,これは1文中の英語の語群と日本語の語群との類似性係数の計算式が語数の少ないときに良くないというところにある。次年度はこれを抜本的に改良して良い結果を得るように,現在検討中である。
|