研究課題
基盤研究(C)
部分転置ダブル配列を用いたngram言語モデルの実装は、アクセス速度とモデルサイズの両面で優れているが、モデル(データ構造)の構築に非常に時間がかかるという欠点がある。本質的な困難性は数億から数十億にもなる子ノード配列(隙間がある)をお互いにぶつからないように1本の配列に配置する点にあり、相互依存が大きいため単純な並列化等の高速化が困難である。本研究では、部分転置ダブル配列の性質を深く検討し、複数の高速化手法によってモデル構築時間について高速化を実現すると同時により高い圧縮率を達成した。
情報工学
ngram言語モデルは音声認識や統計的機械翻訳技術の基盤技術であるため、本研究の成果によって高速かつコンパクトなngram言語モデルを短時間で作成できるようになった点に意義がある。また、より広い観点からは、ダブル配列はトライと呼ばれる一般的な辞書データ構造の実現方法の一つであり、本研究は巨大なデータに対するトライを高速かつコンパクトに実現できるという意味で巨大な辞書を必要とする広いアプリケーションに対しても有効である。