• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実施状況報告書

部分転置ダブル配列ngram言語モデルの構築高速化と深化

研究課題

研究課題/領域番号 18K11423
研究機関筑波大学

研究代表者

山本 幹雄  筑波大学, システム情報系, 教授 (40210562)

研究期間 (年度) 2018-04-01 – 2021-03-31
キーワードngram言語モデル / ダブル配列 / 細粒度並列化 / 部分転置ダブル配列
研究実績の概要

本研究は以下の2つのテーマで研究を行っているが、2018年度はそれぞれ以下の項目についての検討・評価実験を行った。
【I.モデル構築の高速化】 (I-1) 子ノード配置順のランダム化。子ノードをダブル配列にランダムな順で配置すると高速化できるが、ダブル配列が長くなってしまう。しかし、部分転置手法と組み合わせることにより(特に子ノード数が多い子ノード配列を小さく分解できる)、配列長の増加を抑えながらランダム順配置による高速性を活かす手法を提案した。配列長を小さくできる子ノード数順に配置する手法に比べ、配列長が同等で約20倍の高速化を達成した。(I-2)細粒度の並列アルゴリズム。子ノード列の配置手順は、(a)子ノードがぶつからない位置を探す手続きと、(b)見つかった位置を確保する手続きの2つに別れ、かつぶつからない位置を探す手続き(a)がほとんどの時間を使っている(10000:1 程度)。(a)について並列化すると投機的となるが(他のプロセスが同じ場所を見ている可能性)、(b)の手続きで排他的に再確認することにより破綻させないアルゴリズムを開発した。ダブル配列を単純に分割しそれぞれを並列に構築する単純な手法に比べ、10億エントリーのモデルの構築時に、約2倍の高速化を達成した。
【II. ダブル配列言語モデルのさらなる圧縮】これまでノードの子ノードの配置場所探索を順方向(indexが大きくなる方) のみとしていた所を逆方向も探索し可能な限り逆方向に配置することで子ノード数の多いノードでもすでに配置された配列の空き要素を埋めることができるようにする「双方向配置」手法を新たに考案した。この手法によって、10億エントリーのモデルに対して約30%のサイズ削減を達成した。また、副次的な効果として、モデル構築時間も約20%の削減を達成した。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

モデル構築の高速化については、当初の計画通りにランダム配置手法と細粒度並列化のアルゴリズムを提案し、それぞれ大幅な高速化を達成できることを確認した。ダブル配列のさらなる圧縮については、当初の計画にはない「双方向配置」手法を新たに考案し、これまで大きな圧縮率の劣化が確認されていた分割されたダブル配列言語モデルにおいても圧縮の劣化が起きにくいことを確認した。さらに、この手法はモデル構築の高速化も同時に達成しており、計画以上の成果があったと考える。

今後の研究の推進方策

2018年度に当初計画していたアイデアのおおよそ半分についてアルゴリズムの具体化と性能評価を終えたので、今後は残りの半分について検証を行うとともに、新たに考案した「両方向配置」手法の発展を考える。具体的には以下のような計画である。
【I. モデル構築の高速化】(I-3) 文字列マッチング法の利用: BM(Boyer-Moore) 法の
ようにsuffixベースの文字列マッチングアルゴリズムを用いれば配置に失敗したときの次候補へのスキップ幅を大きくできる。これを応用した高速化手法を開発する。(I-4)ダブル配列の分割構築手法。従来の分割構築手法は分割された各部分毎に独立にダブル配列を構築してきた。細粒度並列化アルゴリズムと組み合わせることにより、全体を1本の配列として管理しながら(最適配置を維持しながら)、分割による高速化を適用できるアルゴリズムの開発を行う。
【II. ダブル配列言語モデルのさらなる圧縮】単語IDの最適付与を検討する。ダブル配列に挿入すべき子ノード配列中で他の子ノード配列の値とぶつかってはいけない場所は単語のIDによって変化する。圧縮率が高くなるような単語IDを付与する手法を検討する。現時点では、単語IDを単語の出現頻度順で付与するとランダムに付けた場合よりもはるかに圧縮率が高くなることが分かっている。単語出現頻度ではなく、元となるトライのエッジとして出現する回数の頻度順で単語IDを付与すると子ノード配列がよりコンパクトになりより高い圧縮率が得られると考えている。また、さらに子ノード配列のコンパクト性に基づいた指標を考案し、この指標を最適化する手法も検討する計画である。また、2018年度に考案した「双方向配置」の配置方法をさらに発展させる手法も検討予定である。

次年度使用額が生じた理由

2019年3月15日に学会発表を行ったが、旅費の計算に誤差が生じたためその残額を繰り越すこととなった。

  • 研究成果

    (1件)

すべて 2019

すべて 学会発表 (1件)

  • [学会発表] 双方向配置によるコンパクトかつ高速なダブル配列言語モデル構築2019

    • 著者名/発表者名
      石井瑛彦, 山本幹雄
    • 学会等名
      情報処理学会第81回全国大会

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi