2020 年度研究成果報告書

部分転置ダブル配列ngram言語モデルの構築高速化と深化

研究課題

PDF

研究課題/領域番号	18K11423
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	筑波大学
研究代表者	山本幹雄筑波大学, システム情報系, 教授 (40210562)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	ngram言語モデル / ダブル配列 / 双方向配置 / 文字列マッチング / 細粒度並列化
研究成果の概要	部分転置ダブル配列を用いたngram言語モデルの実装は、アクセス速度とモデルサイズの両面で優れているが、モデル(データ構造)の構築に非常に時間がかかるという欠点がある。本質的な困難性は数億から数十億にもなる子ノード配列(隙間がある)をお互いにぶつからないように1本の配列に配置する点にあり、相互依存が大きいため単純な並列化等の高速化が困難である。本研究では、部分転置ダブル配列の性質を深く検討し、複数の高速化手法によってモデル構築時間について高速化を実現すると同時により高い圧縮率を達成した。
自由記述の分野	情報工学
研究成果の学術的意義や社会的意義	ngram言語モデルは音声認識や統計的機械翻訳技術の基盤技術であるため、本研究の成果によって高速かつコンパクトなngram言語モデルを短時間で作成できるようになった点に意義がある。また、より広い観点からは、ダブル配列はトライと呼ばれる一般的な辞書データ構造の実現方法の一つであり、本研究は巨大なデータに対するトライを高速かつコンパクトに実現できるという意味で巨大な辞書を必要とする広いアプリケーションに対しても有効である。