• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Annual Research Report

分岐ngramモデルによる短距離言語モデルから中距離言語モデルへの飛躍

Research Project

Project/Area Number 24650063
Research InstitutionUniversity of Tsukuba

Principal Investigator

山本 幹雄  筑波大学, システム情報系, 教授 (40210562)

Keywords確率的言語モデル / 依存構造 / 機械翻訳
Research Abstract

本研究では、従来のngramモデルにおける文の直線的な分解を、文の依存構造に沿った分岐的な分解に変更することにより、文の構造を同時にモデル化する手法を開発した。
構造をngramによってモデル化するために分岐箇所をマークする特別な記号を導入し、この記号を単語と同じように扱うことでシンプルかつ強力なモデルを提案した。パラメータ推定方法としては、従来から知られている単語ペアの確率に基づく手法を、一般的なngramに拡張したEMアルゴリズムを開発した。
評価実験は、訓練データとして特許文書テキストを利用し、言語モデルの理論的な指標であるパープレキシティを測定するとともに、機械翻訳と構文解析に応用し、提案モデルの性能を評価した。パープレキシティの評価では、提案モデルはngramの次数が大きくなるに従って、順調に性能が高くなった。しかし、従来のngramモデルを凌駕するには至らなかった。これは、提案手法がすべての依存構造で周辺化した確率を用いているためであり、ほとんどありえない多くの構造をもモデルで考慮していることが原因である。機械翻訳への応用では、従来のngramモデルよりも提案モデルを用いた方が高い性能を達成した(BLUE評価指標で26.2が26.7へと0.5ポイント向上した)。機械翻訳への応用時には、翻訳中の仮説として1つの依存構造だけを用いるため、提案モデルの利点が活きていると思われる。また、構文解析への応用では、既存の依存構造解析器を教師とした訓練を行い、教師を用いずに提案モデルだけで構造解析を行った。教師との一致率は80%となり、本提案モデルによって依存構造解析ができる可能性を示すことができた。

  • Research Products

    (2 results)

All 2013

All Presentation (2 results)

  • [Presentation] An efficient language model using double-array structures2013

    • Author(s)
      M.Yasuhara, T.Tanaka, J.Norimatsu and M.Yamamoto
    • Organizer
      The 2013 Conference on Empirical Methods in Natural Language Processing
    • Place of Presentation
      Seattle, USA
    • Year and Date
      20131018-20131021
  • [Presentation] An Unsupervised Parameter Estimation Algorithm for a Generative Dependency N-gram Language Model2013

    • Author(s)
      Chenchen Ding and Mikio Yamamoto
    • Organizer
      The 6th International Joint Conference on Natural Language Processing
    • Place of Presentation
      Nagoya, Japan
    • Year and Date
      20131015-20131017

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi