• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

部分転置ダブル配列ngram言語モデルの構築高速化と深化

Research Project

Project/Area Number 18K11423
Research InstitutionUniversity of Tsukuba

Principal Investigator

山本 幹雄  筑波大学, システム情報系, 教授 (40210562)

Project Period (FY) 2018-04-01 – 2021-03-31
Keywordsngram言語モデル / ダブル配列 / 細粒度並列化 / 部分転置ダブル配列
Outline of Annual Research Achievements

本研究は2つのテーマで研究を行っているが、2019年度はそれぞれ以下の項目についての検討・評価実験を行った。
【I.モデル構築の高速化】
(1) 文字列マッチング法の利用: BM(Boyer-Moore) 法のようにsuffixベースの文字列マッチングアルゴリズムを用いれば配置に失敗したときの次候補へのスキップ幅を大きくできる。これを応用した高速化手法を開発した。具体的には、ダブル配列と挿入ノードの衝突を判定する際の走査順を変更することでより大きな挿入位置の変化量を獲得し、ノードの挿入位置の探索回数を削減することができる手法を提案した。実験によって提案手法が従来手法と比べてダブル配列言語モデルの構築時間を最大で約40%削減できることを明らかにし、提案手法の有効性を示した。
(2) 分割先頭部スキップ法: ダブル配列構築時に作成する一本の配列は要素が密な部分と疎な部分が存在する。分割の境界で生じやすいこの密な部分であるかどうかを事前に判定し、そうであった場合検証をスキップすることで、構築時間を短縮する手法を提案した。実験により構築時間を50%以上削減できることを示した。
【II. ダブル配列言語モデルのさらなる圧縮】単語IDの最適付与を検討した。ダブル配列に挿入すべき子ノード配列中で他の子ノード配列の値とぶつかってはいけない場所は単語のIDによって変化するため、単語IDを並べ替えることで配列に挿入するノードの隙間が生じにくく変形する手法を提案した。従来の手法では、学習データ内での単語の出現頻度を利用して単語IDを並べていたが、トライ木中での出現頻度を用いることで隙間を減らし、ダブル配列の充填率を最大で10%程度向上させ、さらに構築時間も15%程度削減することに成功した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

モデル構築の高速化については、当初の計画通りに文字列マッチングを用いた手法を考案し、高速化を達成した。これに加え、当初計画になかった分割先頭部スキップ法も開発し、計画以上の高い高速化を達成できた。
ダブル配列のさらなる圧縮についても、当初の計画通りに単語IDの付与を最適化することによる手法を考案し、圧縮率を高めることに成功した。ただし、当初の計画通りの大幅な圧縮率向上は達成できなかった。
以上のように、一進一退ではあるが、モデル構築の高速化とモデルのさらなる圧縮法の開発はおおむね順調に進展していると判断する。

Strategy for Future Research Activity

最終年度である2020年度は、これまで(2018-2019年度)に開発してきた手法の組み合わせの効果を検証する計画である。また、2018年度に計画外の手法として考案したアルゴリズムの改良も同時に行う計画である。
【I. モデル構築の高速化】本研究では、これまで次の5つの高速化手法を開発した:(1)ランダム配置と部分転置法の組み合わせ, (2)細粒度並列化法, (3)双方向配置法, (4)文字列マッチング法の利用, (5)単語IDの最適化 (6)分割先頭部スキップ法。最終年度である2020年度は、これらの手法を同時に利用したときの効果を大規模なデータを用いて検証する計画である。
【II. ダブル配列言語モデルのさらなる圧縮】圧縮率を高める手法としては次の2つの手法を開発した: (1)双方向配置法 (2)単語IDの最適化。高速化と同じように、最終年度である2020年度には、この2つの手法の組み合わせの効果を大規模なデータで検証するとともに、より可能性のある「双方向配置法」をさらに発展させる手法も検討する計画である。

Causes of Carryover

年度末3月の学会発表がCovid-19のためにonline開催となり出張がキャンセルとなり、旅費を繰り越すこととなった。プレゼンテーション用ノートパソコンを購入する計画である。

  • Research Products

    (1 results)

All 2020

All Presentation (1 results)

  • [Presentation] 文字列探索アルゴリズムを応用したダブル配列構築の高速化2020

    • Author(s)
      仲村勇馬, 山本幹雄
    • Organizer
      情報処理学会 第82回全国大会

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi