• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2009 年度 実績報告書

半教師あり学習による対訳コーパスのアラインメント

研究課題

研究課題/領域番号 20500149
研究機関独立行政法人情報通信研究機構

研究代表者

山本 博史  独立行政法人情報通信研究機構, 知識創成コミュニケーション研究センター・言語翻訳グループ, 専攻研究員 (00395013)

キーワードアライメント / 多言語化 / 半教師あり学習 / 固有名詞 / 確率付き制約
研究概要

(1)20年度に用いた単言語タグの種類の拡張
20年度は英語および中国語のパラレルコーパスに対し各単語のタグ情報とアライメント情報を付加した。21年度は当初20年度の単語のタグ情報をより詳細なものに発展させる予定であったが、多言語化を先に行うこととした。その理由はタグ情報とアライメント情報は言語に強く依存するため英中2言語では、研究成果が言語対に依存するものかどうかが判断できないためである。そこで、今年度は英中に加え、日本語を加え3各国のタグ、およびアライメント情報付きのパラレルコーパスを整備することとした。
(2)昨年度の教師あり学習を半教師あり学習に拡張
上記の3各国パラレルコーパスおよび、タグ、アライメント情報なしのパラレルコーパスの両方を用い、半教師あり学習による単語アライメントを試みた。成果としては、日英中いずれの組み合わせにおいてもアライメント精度の向上が確認でき、半教師あり学習の有効性が確認できた。
(3)言語間タグを用いた固有名詞の翻訳
固有名詞等のアライメントに対し、言語ごとに意味情報等を用いてクラス化を行い、クラス情報を用いたアライメントを行った。この結果、固有名詞等の翻訳性能が向上し、有効性が確認できた。
(4)単語アライメントに対する構文木の利用
20年度は構文構造をアライメントの際の制約として用いたが、アライメントとして許されるかどうかの2値情報としてしか利用していなかった。今年度はこの制約を確率付きのものに拡張することにより、アライメント精度を向上させることができた。

  • 研究成果

    (3件)

すべて 2010 2009

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (1件)

  • [雑誌論文] A Reordering Model Using a Source-Side Parse-Tree for Statistical Machine Translation2009

    • 著者名/発表者名
      橋本佳
    • 雑誌名

      IEICE TRANSACTIONS on Information and Systems Vol.E92-D, No.12

      ページ: 2386-2393

    • 査読あり
  • [雑誌論文] A Feature-rich Supervised Word Alignment Model for Phrase-based Statistical Machine Translation2009

    • 著者名/発表者名
      ゴー・チュイリン
    • 雑誌名

      International Journal of Asian Language Processing Vol.19, No.3

      ページ: 109-125

    • 査読あり
  • [学会発表] 統計的機械翻訳における未登録語のグループ化による翻訳2010

    • 著者名/発表者名
      吉崎大輔
    • 学会等名
      言語処理学会 第16回年次大会
    • 発表場所
      東京大学(東京)
    • 年月日
      2010-03-10

URL: 

公開日: 2011-06-16   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi