• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

A study on compact and fast translation and language models for statistical machine translation

Research Project

Project/Area Number 15H02744
Research InstitutionUniversity of Tsukuba

Principal Investigator

山本 幹雄  筑波大学, システム情報系, 教授 (40210562)

Co-Investigator(Kenkyū-buntansha) 乾 孝司  筑波大学, システム情報系, 准教授 (60397031)
Project Period (FY) 2015-04-01 – 2018-03-31
Keywords言語モデル / ダブル配列 / 統計的機械翻訳 / トライ
Outline of Annual Research Achievements

昨年度までの2年間の成果を発展・精密化すると共に、実証実験を実施した。特に、以下の3つの研究課題を中心に研究を実施した。
(1)これまで部分転置ダブル配列という手法を考案し、ngram言語モデルの圧縮・高速化に効果的であることを確認している。本年度は、統計的機械翻訳システムと協調動作できるモジュールを整備し、部分転置ダブル配列をベースとした言語モデルの量子化を含めたトータルな性能評価を行った。その結果、メモリ使用量については、言語モデル他の実装法(例えば、SortedArray法)と同程度の量子化によるモデルサイズ削減効果を確認した。また、実行速度についても、部分転置手法を用いないダブル配列言語モデルと同等の速度を保てることを確認した。
(2)ダブル配列言語モデルをさらにコンパクトにするために線形関数を用いたダブル配列手法の適用を行った。線形関数を用いたダブル配列は、言語モデルのように非常に大きなトライにそのままの形で適用すると逆にサイズが増大してしまうことを確認した。これを解決するために、トライの各階層毎に部分転置手法を適用する手法を考案し、これによって100万エントリ程度のモデルであれば、ベース配列の長さを50%程度に圧縮できることを確認した。
(3)ダブル配列言語モデルの構築高速化手法の一つとして、部分転置手法による高速化効果を評価した。部分転置法は本来圧縮率を上げるための手法であるが、ダブル配列に配置が困難な大きな子ノード配列を小さく分割する手法であるため、高速化にも貢献できる。評価結果としては、転置対象とする子ノード配列の個数を大きくしていくと最大で2割ほど高速化できるが、さらに大きくすると高速化の効果は減少することが分かった。
最後に、これまで開発した部分転置ダブル配列言語モデルの構築およびアクセス用のソフトウェアを共有リポジトリで公開した。

Research Progress Status

29年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

29年度が最終年度であるため、記入しない。

  • Research Products

    (1 results)

All 2018

All Presentation (1 results)

  • [Presentation] 細粒度並列処理によるダブル配列言語モデルの構築高速化2018

    • Author(s)
      石井瑛彦、芳賀駿平、竹中孝介、大隈賢二、山本幹雄
    • Organizer
      第24回言語処理学会年次大会

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi