• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

多義性が解消された多言語辞書の自動構築に関する研究

Research Project

Project/Area Number 22300032
Research InstitutionShizuoka University

Principal Investigator

梶 博行  静岡大学, 情報学部, 教授 (20402232)

Co-Investigator(Kenkyū-buntansha) 許山 秀樹  静岡大学, 情報学部, 教授 (10257230)
Keywords多言語処理 / 機械翻訳 / 語義の曖昧性解消 / 対訳辞書 / コーパス
Research Abstract

本研究の目的は、機械翻訳や言語横断情報検索の高度化の基盤となる「多義性が解消された多言語辞書」をいくつかの言語対の対訳辞書と各言語のテキストコーパスから自動構築する手法を開発することである。構築される辞書は多言語の同義語(対訳語)集合を構成要素とする辞書である。多義性の構造が言語によって異なるため、個々の言語からみると多義性が解消された辞書となっていることが特徴である。任意の個数の言語の組に適用可能な方法を目標とするが、具体的には日本語、英語、中国語の3言語を対象として研究を進める。
本年度は提案方法の基本部分の実装と予備評価を行った。提案方法は、(1)2言語対訳辞書の結合による対訳3つ組候補の生成、(2)3つ組を構成する各言語の語の共起語集合による特徴づけ、(3)共起語の言語間アラインメントに基づく共起語集合の語義対応部分集合への分割、(4)共起語部分集合の類似度に基づく3つ組のフィルタリング、の4つのステップから構成される。2言語対訳辞書としてEDR日英対訳辞書、LDC中英対訳辞書、EDR日中対訳辞書を、各言語のコーパスとして毎日新聞・読売新聞、LDC English Giga Wordコーパス(ニューヨークタイムズほか)・Daily Yomiuri、LDC Chinese GigaWordコーパス(新華社通信ほか)を用いて評価実験を行った。この結果、各言語の単言語コーパスを使用するため、共起語集合の類似度は信頼度が高くないという問題が明らかになった。次年度はこの点を中心に提案方法を改良する。

  • Research Products

    (1 results)

All 2010

All Presentation (1 results)

  • [Presentation] Word Translation Disambiguation Using Syntactic Co-occurrence Information and Word Classes2010

    • Author(s)
      Takashi Tsunakawa, Hiroyuki Kaji
    • Organizer
      The 10th Japan-China Natural Language Processing Joint Research Promotion Conference
    • Place of Presentation
      Suzhou, China
    • Year and Date
      2010-11-05

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi