• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2008 年度 実績報告書

半教師あり学習による対訳コーパスのアラインメント

研究課題

研究課題/領域番号 20500149
研究機関独立行政法人情報通信研究機構

研究代表者

山本 博史  独立行政法人情報通信研究機構, 知識創成コミュニケーション研究センター言語翻訳グループ, 専攻研究員 (00395013)

キーワード自然言語処理
研究概要

(1)タグ付きコーパス作成のガイドラインの作成とその評価
本研究の目的である半教師あり学習アルゴリズムでは、教師信号であるタグ付きのアライメントコーパスが必要となる。そこで、まずこのコーパス作成のためのガイドラインの作成と、その妥当性の評価を行った。本ガイドラインではアライメントの種類を強対応、弱対応、擬似対応の3種類にわけ、それぞれに対して基準をもうけている。書き言葉コーパス(LDC)と話し言葉コーパス(BTEC)の2種類の中英対訳コーパスに対してアライメントを行い、その評価を行った。その結果、良好なアライメント精度を得ることができ、正当性を確認できた。
(2)教師あり学習による単語アライメント
半教師あり学習の前段階として、中英対訳コーパスに対して教師ありの条件での単語アライメントを試みた。この時、用いた教師信号は、(1)のガイドラインに従って付与された単語アライメント情報の他、中英の単語間の共起率、中英対訳辞書、文中の相対位置の違い、品詞タグ等である。学習方法としてはコンデイショナルランダムフィールド(CRF)を用いている。この教師あり学習によって得られたモデルを用いて単語アライメントを行った結果、従来法であるGIZA++よりも7%低いアライメント誤り率を得ることができ、付加情報の有用性が確認できた。
(3)単語アライメントに対する構文木の利用
対訳関係にある文対の片側の言語文に対してその構文木が与えられた場合、もう片側の言語の単語順序に対して、制約がかかる。たとえば片側の言語文が単語A、Bという列を含み、かつAとBが部分木をなす場合、もう片側の言語におけるAとBの対訳語も連続して文中に現れる。この性質を利用して一部の単語アライメント誤りを避けることができる。この手法により翻訳の性能がBLEU値で1〜2%向上し、構文木情報の単語アライメントヘの有効性が確認できた。

  • 研究成果

    (3件)

すべて 2009 2008

すべて 学会発表 (3件)

  • [学会発表] Supervised Word Alignment for Phrase-based Statistical Machine Translation2009

    • 著者名/発表者名
      ゴー・チュイリン
    • 学会等名
      言語処理学会 第15回年次大会
    • 発表場所
      鳥取
    • 年月日
      2009-03-05
  • [学会発表] Guidelines for Chinese-English Word Alignment2008

    • 著者名/発表者名
      Hongmei ZHAO
    • 学会等名
      The 4th China Workshop on Machine Translation, CWMT' 2008
    • 発表場所
      北京(中国)
    • 年月日
      2008-11-27
  • [学会発表] Imposing Constraints from the Source Tree on ITG Constraints for SMT2008

    • 著者名/発表者名
      山本博史
    • 学会等名
      ACL-08 : HLT SSST-2 (The Second Workshop on Syntax Structure in Statistical Translation)
    • 発表場所
      オハイオ(米国)
    • 年月日
      2008-06-20

URL: 

公開日: 2010-06-11   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi