• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

大規模分散並列処理に基づく統計的機械翻訳

Research Project

Project/Area Number 19024075
Research Category

Grant-in-Aid for Scientific Research on Priority Areas

Allocation TypeSingle-year Grants
Review Section Science and Engineering
Research InstitutionNTT Communication Science Laboratories

Principal Investigator

塚田 元  NTT Communication Science Laboratories, 協創情報研究部, 主任研究員 (10396145)

Co-Investigator(Kenkyū-buntansha) 磯崎 秀樹  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主幹研究員 (00396144)
渡辺 太郎  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, リサーチスペシャリスト (90395038)
藤野 昭典  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究主任 (50396157)
鈴木 潤  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 社員 (80396150)
須藤 克仁  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 社員 (00396152)
Project Period (FY) 2007 – 2008
Project Status Completed (Fiscal Year 2008)
Budget Amount *help
¥9,400,000 (Direct Cost: ¥9,400,000)
Fiscal Year 2008: ¥4,700,000 (Direct Cost: ¥4,700,000)
Fiscal Year 2007: ¥4,700,000 (Direct Cost: ¥4,700,000)
Keywords自然言語処理 / 統計的機械翻訳 / 機械学習 / 識別学習 / 半教師あり学習 / 高次元素性 / 分散計算環境 / 言語情報解析
Research Abstract

本年度は、(1)階層的な句に基づく翻訳手法の高度化(須藤,渡辺,塚田)、および(2)半教師あり学習に基づく言語情報解析法の研究(鈴木,藤野,磯崎)の二つの課題に取り組んだ。
研究課題(1)として,本年度はNTTの研究費によって開発した高次元素性を活用した翻訳手法を,評価型ワークショップIWSLT2008のタスクで評価した.昨年度も高次元素性を活用するアプローチでIWSLT2007に参加したが,今年は文脈情報を含むより高度な素性の活用を検討した.昨年度は翻訳デコーダと密に結合した学習器によって,高次元素性を扱ったが今年より柔軟な素性の扱いを優先し,翻訳結果を再順序付けする学習器で高次元素性を扱うアプローチをとった.最終的に、中英チャレンジタスクにおいて,我々は他チームの1/10〜1/100の量の学習データ(対訳コーパス)で、11チーム中,3位相当の成績を達成することができた.
研究課題(2)としては,昨年度考案した「半教師あり学習法」による固有表現抽出器などのスケーラビリティの確認をさらなる大規模学習データで確認した.昨年度は10億語を超える学習データを利用した実験を行い,その成果は今年度ACL-2008に採録されたが,今年度はデータをさらに増やして40億語近いデータでも実験を行った.その結果,性能がさらに向上することを確認した.この他,NTTの研究費で考案した半教師あり学習に基づく文書分類法を、公開データ(報道記事,NTCIRタスク)で評価し,有効性を確認した.

Report

(2 results)
  • 2008 Annual Research Report
  • 2007 Annual Research Report

Research Products

(8 results)

All 2009 2008 2007

All Presentation (8 results)

  • [Presentation] 経験的リスク最小化に基づいた統計的機械翻訳システムの最適化2009

    • Author(s)
      林克彦,渡辺太郎,塚田元,磯崎秀樹
    • Organizer
      言語処理学会第15回年次大会
    • Place of Presentation
      鳥取
    • Year and Date
      2009-03-05
    • Related Report
      2008 Annual Research Report
  • [Presentation] NTT SMT System 2008 at NTCIR-72008

    • Author(s)
      Taro Watanabe, et al.
    • Organizer
      7th NTCIR Workshop
    • Place of Presentation
      東京
    • Year and Date
      2008-12-18
    • Related Report
      2008 Annual Research Report
  • [Presentation] Multi-label Classification using Logistic Regression Models for NTCIR-7 Patent Mining Task2008

    • Author(s)
      Akinori Fujino and Hideki Isozaki
    • Organizer
      7th NTCIR Workshop
    • Place of Presentation
      東京
    • Year and Date
      2008-12-17
    • Related Report
      2008 Annual Research Report
  • [Presentation] NTT Statistical Machine Translation System for IWSLT 20082008

    • Author(s)
      Katsuhito Sudoh, et al.
    • Organizer
      International Workshop on Spoken Language Translation 2008 (IWSLT 2008)
    • Place of Presentation
      Hawaii, USA
    • Year and Date
      2008-10-21
    • Related Report
      2008 Annual Research Report
  • [Presentation] 生成・識別モデルの統合に基づく半教師あり学習法とその多重分類への応用2008

    • Author(s)
      藤野昭典,上田修功,磯崎秀樹
    • Organizer
      情報処理学会研究報告MPS
    • Place of Presentation
      東京
    • Year and Date
      2008-09-19
    • Related Report
      2008 Annual Research Report
  • [Presentation] Semi-supervised Sequential Labeling and Segmentation using Giga-word Scale Unlabeled Data2008

    • Author(s)
      Jun Suzuki and Hideki Isozaki
    • Organizer
      ACL-08:HLT
    • Place of Presentation
      Ohio, USA
    • Year and Date
      2008-06-17
    • Related Report
      2008 Annual Research Report
  • [Presentation] 大規模ラベルなしデータを利用した言語解析器の性能検証2008

    • Author(s)
      鈴木 潤, ほか
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-18
    • Related Report
      2007 Annual Research Report
  • [Presentation] Large Features Set Approach for Machine Translation in IWSLT 20072007

    • Author(s)
      Taro Watanabe, et. al.
    • Organizer
      International Workshop on Spoken Language Translation 2007(IWSLT 2007)
    • Place of Presentation
      Trento,Italy
    • Year and Date
      2007-10-15
    • Related Report
      2007 Annual Research Report

URL: 

Published: 2007-03-31   Modified: 2018-03-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi