Budget Amount *help |
¥4,800,000 (Direct Cost: ¥4,800,000)
Fiscal Year 2003: ¥2,400,000 (Direct Cost: ¥2,400,000)
Fiscal Year 2002: ¥2,400,000 (Direct Cost: ¥2,400,000)
|
Research Abstract |
本研究では,WWW(ワールドワイドウェブ)上の新聞社などの報道記事のページから日本語・英語等,異なった言語で書かれた文書を収集し,多種多様な分野について,分野固有の人名・地名・組織名などの固有名詞(固有表現)や事象・言い回しなどの翻訳知識を獲得する手法の研究を行なった.本年度は,昨年度に収集した二言語報道記事を情報源として,翻訳知識の獲得手法の研究,および,獲得された翻訳知識の評価を行なった.本年度の研究項目は次の2点である. 1.翻訳知識の候補の自動収集および候補の順位付け 2.獲得された翻訳知識の評価 まず,第1点については,報道記事中の人名・地名・組織名などの分野固有の固有名詞(固有表現)や事象・言い回しなどについて,翻訳知識の候補を収集する手法を確立した.さらに,各々の言語の表現が出現する対訳文書組候補の順位付けの情報,周囲の共起単語のパターンなど,多種多様な知識を最適な形で統合することにより,翻訳知識の候補の順位付けを行なう手法を確立した.ここでは,特に,訳語対応を推定する複数の統計的尺度を導入し,これらの複数尺度の最適な統合を行なうことにより,翻訳知識の候補の順位付け性能が改善できることを示した. 第2点については,獲得された翻訳知識が,既存の対訳辞書や翻訳ソフトに既登録であるかどうかの評価を行ない,一定量の新規翻訳知識が獲得されていることを確認した.これにより,既存の対訳辞書や翻訳ソフトの性能向上に寄与できることを示した.
|