• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

部分転置ダブル配列ngram言語モデルの構築高速化と深化

研究課題

研究課題/領域番号 18K11423
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分61030:知能情報学関連
研究機関筑波大学

研究代表者

山本 幹雄  筑波大学, システム情報系, 教授 (40210562)

研究期間 (年度) 2018-04-01 – 2021-03-31
研究課題ステータス 完了 (2020年度)
配分額 *注記
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2020年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2019年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2018年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワードngram言語モデル / ダブル配列 / 双方向配置 / 文字列マッチング / 細粒度並列化 / Boyer-Moore / Elias-Fano符号化法 / Remapping / 部分転置ダブル配列
研究成果の概要

部分転置ダブル配列を用いたngram言語モデルの実装は、アクセス速度とモデルサイズの両面で優れているが、モデル(データ構造)の構築に非常に時間がかかるという欠点がある。本質的な困難性は数億から数十億にもなる子ノード配列(隙間がある)をお互いにぶつからないように1本の配列に配置する点にあり、相互依存が大きいため単純な並列化等の高速化が困難である。本研究では、部分転置ダブル配列の性質を深く検討し、複数の高速化手法によってモデル構築時間について高速化を実現すると同時により高い圧縮率を達成した。

研究成果の学術的意義や社会的意義

ngram言語モデルは音声認識や統計的機械翻訳技術の基盤技術であるため、本研究の成果によって高速かつコンパクトなngram言語モデルを短時間で作成できるようになった点に意義がある。また、より広い観点からは、ダブル配列はトライと呼ばれる一般的な辞書データ構造の実現方法の一つであり、本研究は巨大なデータに対するトライを高速かつコンパクトに実現できるという意味で巨大な辞書を必要とする広いアプリケーションに対しても有効である。

報告書

(4件)
  • 2020 実績報告書   研究成果報告書 ( PDF )
  • 2019 実施状況報告書
  • 2018 実施状況報告書
  • 研究成果

    (3件)

すべて 2020 2019

すべて 学会発表 (3件)

  • [学会発表] 階層的Encoder-Decoderモデルによる宿泊施設レビュー文書に対する応答文書生成2020

    • 著者名/発表者名
      橋爪友莉子, 山本幹雄
    • 学会等名
      2020年度人工知能学会全国大会
    • 関連する報告書
      2020 実績報告書
  • [学会発表] 文字列探索アルゴリズムを応用したダブル配列構築の高速化2020

    • 著者名/発表者名
      仲村勇馬, 山本幹雄
    • 学会等名
      情報処理学会 第82回全国大会
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] 双方向配置によるコンパクトかつ高速なダブル配列言語モデル構築2019

    • 著者名/発表者名
      石井瑛彦, 山本幹雄
    • 学会等名
      情報処理学会第81回全国大会
    • 関連する報告書
      2018 実施状況報告書

URL: 

公開日: 2018-04-23   更新日: 2022-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi