研究概要 |
機械翻訳の研究は一定の成果を上げているが,訳語選択など,深い意味処理が必要な部分は,十分なものでなく,記号処理の限界が明らかになってきた.このため,統計的な手法が注目され,多くの研究が行われている.そこで,本研究では,機械翻訳において,記号処理と統計処理の融合を行う.対象言語としては,日本語と韓国語を用いる.機械翻訳の処理の中でも,訳語選択のアルゴリズムに注目し,記号処理を補完するために,統計情報としてどのようなものが必要か,また,それをどのようにして収集すればよいかを明らかにする.本年度は,従来から研究を行っている対話的な韓日翻訳ツールを用いて,訳語選択における問題点を明らかにし,同時に,対訳データの蓄積を行った.名詞,動詞などの用言の訳語選択は,日本語のかな漢字変換における候補選択と同様,文内文脈の単純な統計的情報を用いることにより,精度良く訳語が選択できることがわかった.しかし,助詞相当語句や慣用的表現については,構文的情報も加味する必要があることも明らかになった.次に,統計処理には,構文構造の対応つきの対訳データが必要であるので,これを,既存の対訳文章から自動的に求めるアルゴリズムについて検討した.基本的な手法は考案できたが,今後,アルゴリズムをプログラム化し,性能を評価する必要がある.最後に,電子ニュース記事(日本語)における単語の用例の統計的性質に関する調査を行い,構文的用法と単語の用例の関係を明らかにした.その結果,分野を限定すれば,辞書情報が十分でなくとも,構文的用法により,単語の意味分類がある程度推定できることが明らかになった.
|