• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2007 Fiscal Year Annual Research Report

多言語対訳コーパスを用いた言語間距離の計算とその応用

Research Project

Project/Area Number 19500137
Research InstitutionNational Institute of Information and Communications Technology

Principal Investigator

隅田 英一郎  National Institute of Information and Communications Technology, 第二研究部門知識創威コミユニケーション研究センター・音声言語グループ, 専門研究員 (90395020)

Co-Investigator(Kenkyū-buntansha) 山本 博史  独立行政法人情報通信研究機構, 第二研究部門知識創成コミユニケーション研究センター音声言語グルーガ, 専門研究員 (00395013)
Keywords自然言語処理
Research Abstract

(A)距離計算の基本方式言語間の距離は語彙と文法(語順や活用)の相違に基づいて考えることができる。例えば、極めて類似した言語スペイン語とイタリア語では、語彙はもともとラテン語に由来し、語源を同じにする語が多く、また、文字列的類似性も高い。文法も、主語S、目的語O、動詞Vの語順はSVOの順であり、前置詞を用い、修飾は後方からかかる。性数にかかわる活用変化があり、格変化はない。このように非常に良く似ている。一方、英語と日本語では、SVOとSOVと異なり、前置詞と後置詞と異なる。数による変化は英語で必須だが、日本語ではほとんど現れない。カタカナ語を除いて語彙の重なりはほとんどない。一方、中国語と日本語では、SVOとSOVと異なるが、漢語を共有するため語彙の重なりは大きい。本研究は計算可能な距離を提案し対訳データATR-BTECを使って様々な検討を行うことを目的としている。19年度は既存のATR-BTECコーパス(18言語)を使って翻訳システムを構築し、その翻訳性能に基づく言語間距離を検討した。この距離において、日本語と韓国語の距離が、ポルトガル語とその方言であるブラジル・ポルトガル語との距離より小さいという興味深い実験結果が得られた。
(B)ATR-BTECの拡張同時にATR-BTECの英語部分を素にして、新たな言語への翻訳をATR-BTECに追加する。追加する言語は既存のATR-BTECに含まれる言語と大きく特性(語順・活用など)の異なる言語を撰択することとし、トルコ語、ギリシャ語を対象に実施した。

  • Research Products

    (5 results)

All 2008 2007

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (2 results)

  • [Journal Article] Multilingual Spoken Language Corpus Development for Communication Research2007

    • Author(s)
      竹沢
    • Journal Title

      CLCLP 12

      Pages: 303-324

    • Peer Reviewed
  • [Journal Article] 機械翻訳の研究・開発における翻訳自動評価技術とその応用2007

    • Author(s)
      安田
    • Journal Title

      人工知能学会誌 23

      Pages: 2-9

    • Peer Reviewed
  • [Journal Article] Bilingual Cluster Based Models for Statistical Machine Translation2007

    • Author(s)
      山本
    • Journal Title

      IEICE Trans. Inf. & Syst E91-D

    • Peer Reviewed
  • [Presentation] 旅行対話を対象とした多言語コーパスと翻訳システム2008

    • Author(s)
      山本
    • Organizer
      音響学会
    • Place of Presentation
      千葉大学
    • Year and Date
      2008-03-19
  • [Presentation] Handhng of out-of-vocabulary words in phrase-based statistical machine translation for Hindi-Japanese2008

    • Author(s)
      パウル
    • Organizer
      言語処理学会
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-18

URL: 

Published: 2010-02-04   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi