• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実績報告書

部分転置ダブル配列ngram言語モデルの構築高速化と深化

研究課題

研究課題/領域番号 18K11423
研究機関筑波大学

研究代表者

山本 幹雄  筑波大学, システム情報系, 教授 (40210562)

研究期間 (年度) 2018-04-01 – 2021-03-31
キーワードngram言語モデル / ダブル配列 / 文字列マッチング / Boyer-Moore / Elias-Fano符号化法 / Remapping
研究実績の概要

本研究は2つのテーマで研究を行っているが、2020年度は2019年度までに開発した手法についてある程度の規模のデータによってその有効性を検証するとともに、ダブル配列言語モデルのさらなる圧縮法として文脈付き単語ID付与による方法を提案した。
【I.モデル構築の高速化】
BM(Boyer-Moore) 法のようにsuffixベースの文字列マッチングアルゴリズムを用いれば配置に失敗したときの次候補へのスキップ幅を大きくできる。2019年度までに、ダブル配列と挿入ノードの衝突を判定する際の走査順を変更することでより大きな挿入位置の変化量を獲得し、ノードの挿入位置の探索回数を削減することができる手法を開発した。2020年度はデータ量を5億エントリー(5億種類の5gram)まで増やすことによって検証を行った。その結果、提案手法はデータが大きくなるに従って、従来法よりも高速になる割合が増加することを確認し、データのサイズに対してスケールすることを実証した。
【II. ダブル配列言語モデルのさらなる圧縮】
トライ木をElias-Fanoコーディングを用いて圧縮する際に圧縮効率を上げるために用いられる単語IDの付け替え手法(remapping)技術をダブル配列に応用し、圧縮効率を高める方法を提案した。具体的には、トライ木の各ノードから子ノード集合への遷移時に利用する単語ID幅を文脈(その単語の直前までの単語連鎖)によって限定することで、ダブル配列に格納される遷移先ノード番号の分散を防ぎ隙間を減らすことによって圧縮率を高める方法である。実験によってデータサイズの増加とともに圧縮率が高まることを確認し、10億のngramデータに対しては本手法を使わない場合のサイズからさらに13%圧縮できることを示した。

  • 研究成果

    (1件)

すべて 2020

すべて 学会発表 (1件)

  • [学会発表] 階層的Encoder-Decoderモデルによる宿泊施設レビュー文書に対する応答文書生成2020

    • 著者名/発表者名
      橋爪友莉子, 山本幹雄
    • 学会等名
      2020年度人工知能学会全国大会

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi