• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2007 Fiscal Year Annual Research Report

大規模分散並列処理に基づく統計的機械翻訳

Research Project

Project/Area Number 19024075
Research InstitutionNTT Communication Science Laboratories

Principal Investigator

塚田 元  NTT Communication Science Laboratories, その他部局等, 研究員 (10396145)

Keywords自然言語処理 / 統計的機械翻訳 / 機械学習 / 識別学習 / 半教師あり学習 / 高次元素性 / 分散計算環境 / 言語情報解析
Research Abstract

本年度は,(1)分散計算環境を活用した高次元素性に基づく識別モデル学習法の開発(塚田,渡辺),および,(2)分散計算環境を活用した半教師あり学習に基づく言語情報解析法の開発(磯崎,鈴木,藤野,須藤)の二つの課題に取り組んだ。
研究課題(1)は,従来の手法と比較して桁違いの高次元素性を活用することで,翻訳精度を向上させることを目指している。統計モデルの学習に必要な計算量は従来の数倍にもなるが,本科研費の助成のもとに構築された分散計算機環境を活用することで,評価実験が可能となった。NTTの研究費によって開発された高次元素性に基づく翻訳手法を国際的な評価型ワークショップIWSLT 2007(International Workshop on Spoken Language Translation)のタスクで評価した。その結果,テスト条件にマッチした開発セットを利用することで,世界トップレベルの翻訳精度が得られることを確認した。
研究課題(2)は,高次元素性の一つとして利用可能な言語情報を高精度に解析することを目指している。言語情報解析器を統計的な手法で構築するためには,言語情報のラベルが付与された学習データが必要である。一般に,このような学習データの構築は困難であり量は限られている。そこで,膨大なWebデータなどのラベルなし学習データを併用する半教師あり学習の手法について研究を進めている。本年度は,NTTの研究費で開発された半教師あり学習法を,分散計算環境を利用して大規模なラベルなしデータを利用した場合に,どれくらいの精度向上が得られるかを明らかにした。その結果,ラベルなしデータを増やせば増やすほど性能が向上し,10億語のラベルなしデータを用いた時点で,国際的なベンチマークテストにおけるトップスコアを達成することができた。

Research Products

(2 results)

All 2008 2007

All Presentation (2 results)

  • [Presentation] 大規模ラベルなしデータを利用した言語解析器の性能検証2008

    • Author(s)
      鈴木 潤, ほか
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-18
  • [Presentation] Large Features Set Approach for Machine Translation in IWSLT 20072007

    • Author(s)
      Taro Watanabe, et. al.
    • Organizer
      International Workshop on Spoken Language Translation 2007(IWSLT 2007)
    • Place of Presentation
      Trento,Italy
    • Year and Date
      2007-10-15

URL: 

Published: 2010-02-03   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi