研究分担者 |
LUO Zhenshen 清華大学, 中文学部, 教授
DAVIS Mark ニューメキシコ州立大学, CRL, 研究員
NIE Jianyun モントリオール大学, 情報研究学部, 助教授
陳 春祥 広島県立大学, 情報教育センター, 助教授 (90264944)
北上 始 広島市立大学, 情報科学部, 教授 (50234240)
|
研究概要 |
本研究は,日本語・中国語・英語の言語共同点と各言語の独自的特徴の検討を基に,日・中・英テキスト対訳コーパスを開発し,さらにそれを基にして自然言語処理への応用手法の研究・開発を行うことである.我々はコーパスの構築を行い,そして,コーパスの情報付け方法,対訳コーパスの文単位のアライメント,コーパスを利用した翻訳知識の獲得及び多言語情報検索などを行った.このような研究を通じ、以下のような成果が収めた. (1) 従来の統計情報のみを利用するアライメント方式を用い,日中対訳コーパスを対象として実験を行ったが,欧米言語のような高い精度が得られなかった.この問題を検討し,我々は統計情報と特徴文字の性質の両方面を利用したアライメント方法を提案し,良い精度が得られた. (2) コーパスに対し単語の分割(セクメンテーション)が必要であるが,中国語などの連続に書く言語についていろいろな問題が残されている.我々は「敏感語」という新しい概念を提案し,これを用いコーパスの解析を行った.即ち,解析において,敏感語のみに着目し,非敏感語について曖昧性がないように処理する. (3) 大規模な対訳コーパスから翻訳知識の自動獲得が期待されているが,現実には,有用な翻訳知識を完全に自動でコーパスから取り出すのは容易でないと考える.我々はコーパスからの翻訳知識獲得手法を開発し,日中機械翻訳システムに応用し,その有効性を確認することが出来た. (4) 多言語情報検索では機械翻訳システムを利用するとどのような結果があるかについて,本研究ではいろいろな実験を行った.特に,日中英言語を対象として考察を行った.結果から,多言語情報抽出に対し従来の機械翻訳をそのまま利用するとあまり効果が上げられないが,単語レベルの解析結果を利用すると良い効果がある,ことが分かった. (5) 多エンジンによる機械翻訳手法を提案し,中英機械翻訳実験を行った. (6) これから「コーパス」,「中国語辞書」などを整備し,Webに公開する予定である.
|