• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

大規模分散並列処理に基づく統計的機械翻訳

研究課題

研究課題/領域番号 19024075
研究種目

特定領域研究

配分区分補助金
審査区分 理工系
研究機関日本電信電話株式会社NTTコミュニケーション科学基礎研究所

研究代表者

塚田 元  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (10396145)

研究分担者 磯崎 秀樹  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主幹研究員 (00396144)
渡辺 太郎  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, リサーチスペシャリスト (90395038)
藤野 昭典  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究主任 (50396157)
鈴木 潤  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 社員 (80396150)
須藤 克仁  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 社員 (00396152)
研究期間 (年度) 2007 – 2008
研究課題ステータス 完了 (2008年度)
配分額 *注記
9,400千円 (直接経費: 9,400千円)
2008年度: 4,700千円 (直接経費: 4,700千円)
2007年度: 4,700千円 (直接経費: 4,700千円)
キーワード自然言語処理 / 統計的機械翻訳 / 機械学習 / 識別学習 / 半教師あり学習 / 高次元素性 / 分散計算環境 / 言語情報解析
研究概要

本年度は、(1)階層的な句に基づく翻訳手法の高度化(須藤,渡辺,塚田)、および(2)半教師あり学習に基づく言語情報解析法の研究(鈴木,藤野,磯崎)の二つの課題に取り組んだ。
研究課題(1)として,本年度はNTTの研究費によって開発した高次元素性を活用した翻訳手法を,評価型ワークショップIWSLT2008のタスクで評価した.昨年度も高次元素性を活用するアプローチでIWSLT2007に参加したが,今年は文脈情報を含むより高度な素性の活用を検討した.昨年度は翻訳デコーダと密に結合した学習器によって,高次元素性を扱ったが今年より柔軟な素性の扱いを優先し,翻訳結果を再順序付けする学習器で高次元素性を扱うアプローチをとった.最終的に、中英チャレンジタスクにおいて,我々は他チームの1/10〜1/100の量の学習データ(対訳コーパス)で、11チーム中,3位相当の成績を達成することができた.
研究課題(2)としては,昨年度考案した「半教師あり学習法」による固有表現抽出器などのスケーラビリティの確認をさらなる大規模学習データで確認した.昨年度は10億語を超える学習データを利用した実験を行い,その成果は今年度ACL-2008に採録されたが,今年度はデータをさらに増やして40億語近いデータでも実験を行った.その結果,性能がさらに向上することを確認した.この他,NTTの研究費で考案した半教師あり学習に基づく文書分類法を、公開データ(報道記事,NTCIRタスク)で評価し,有効性を確認した.

報告書

(2件)
  • 2008 実績報告書
  • 2007 実績報告書
  • 研究成果

    (8件)

すべて 2009 2008 2007

すべて 学会発表 (8件)

  • [学会発表] 経験的リスク最小化に基づいた統計的機械翻訳システムの最適化2009

    • 著者名/発表者名
      林克彦,渡辺太郎,塚田元,磯崎秀樹
    • 学会等名
      言語処理学会第15回年次大会
    • 発表場所
      鳥取
    • 年月日
      2009-03-05
    • 関連する報告書
      2008 実績報告書
  • [学会発表] NTT SMT System 2008 at NTCIR-72008

    • 著者名/発表者名
      Taro Watanabe, et al.
    • 学会等名
      7th NTCIR Workshop
    • 発表場所
      東京
    • 年月日
      2008-12-18
    • 関連する報告書
      2008 実績報告書
  • [学会発表] Multi-label Classification using Logistic Regression Models for NTCIR-7 Patent Mining Task2008

    • 著者名/発表者名
      Akinori Fujino and Hideki Isozaki
    • 学会等名
      7th NTCIR Workshop
    • 発表場所
      東京
    • 年月日
      2008-12-17
    • 関連する報告書
      2008 実績報告書
  • [学会発表] NTT Statistical Machine Translation System for IWSLT 20082008

    • 著者名/発表者名
      Katsuhito Sudoh, et al.
    • 学会等名
      International Workshop on Spoken Language Translation 2008 (IWSLT 2008)
    • 発表場所
      Hawaii, USA
    • 年月日
      2008-10-21
    • 関連する報告書
      2008 実績報告書
  • [学会発表] 生成・識別モデルの統合に基づく半教師あり学習法とその多重分類への応用2008

    • 著者名/発表者名
      藤野昭典,上田修功,磯崎秀樹
    • 学会等名
      情報処理学会研究報告MPS
    • 発表場所
      東京
    • 年月日
      2008-09-19
    • 関連する報告書
      2008 実績報告書
  • [学会発表] Semi-supervised Sequential Labeling and Segmentation using Giga-word Scale Unlabeled Data2008

    • 著者名/発表者名
      Jun Suzuki and Hideki Isozaki
    • 学会等名
      ACL-08:HLT
    • 発表場所
      Ohio, USA
    • 年月日
      2008-06-17
    • 関連する報告書
      2008 実績報告書
  • [学会発表] 大規模ラベルなしデータを利用した言語解析器の性能検証2008

    • 著者名/発表者名
      鈴木 潤, ほか
    • 学会等名
      言語処理学会第14回年次大会
    • 発表場所
      東京大学
    • 年月日
      2008-03-18
    • 関連する報告書
      2007 実績報告書
  • [学会発表] Large Features Set Approach for Machine Translation in IWSLT 20072007

    • 著者名/発表者名
      Taro Watanabe, et. al.
    • 学会等名
      International Workshop on Spoken Language Translation 2007(IWSLT 2007)
    • 発表場所
      Trento,Italy
    • 年月日
      2007-10-15
    • 関連する報告書
      2007 実績報告書

URL: 

公開日: 2007-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi